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• 1 

La presente invention est relative a une nouvelle famille de 
sequences nucleiques et de sequences proteiques deduites, qui presentent des motifs 
retroviraux endogenes humains complets ou partiels. 

L'invention est egalement relative a la detection et/ou a l'utilisation 
5 desdites sequences nucleiques et desdites sequences proteiques correspondantes, dans 
le cadre d'applications diagnostiques, prophylactiques et therapeutiques, en particulier 
pour des neuropathologies a composante autoimmune comme la sclerose en plaques. 

L'invention concerne aussi l'obtention de sondes nucleiques double 
brins et simple brin anti-sens, de ribozymes, aptes a moduler la replication virale (T.R. 
10 Cech, Science, 1987, 236, 1532-1539 ; R.H. Symons, Trends Biochem. Set, 1989, 14, 
445-450) des molecules recombinantes correspondantes, et des anticorps associes. 

Les retrovirus sont des virus qui se repliquent uniquement en utili- 
sant la voie inverse du traitement classique de rinformation genetique. Ce processus, 
nomme transcription inverse, est medie par une ADN polymerase ARN dependante ou 
15 transcriptase reverse, codee par le gene pol Les retrovirus codent aussi au minimum 
pour deux genes additionnels. Le gene gag code pour les proteines du squelette, ma- 
trice, nucleocapside et capside. Le gene env code pour les glycoproteines d'enveloppe. 
La transcription retrovirale est regulee par des regions promotrices ou " enhancers ", 
situees dans des regions hautement repetees ou LTR {Long Terminal Repeat) et qui 
20 sont presentes aux deux extremit6s du genome retroviral. 

Lors de l'infection d'une ceUule, la polymerase fait une copie ADN 
du genome ARN ; cette copie peut alors s'integrer dans le genome humain. Les retro- 
virus ne tuent pas les cellules qu'ils infectent, mais au contraire ameliorent souvent 
leur rapidite de croissance. Les retrovirus peuvent infecter des cellules germinales ou 
25 des embryons a un stade precoce ; ils peuvent dans ces conditions, integrer la lignee 
germinale et etre transmis par transmission mend£lienne verticale, ce qui constitue la 
relation la plus etroite entre un hote et son parasite. Ces virus endogenes peuvent 
degenerer au cours des generations de l'organisme hote et perdre leurs propridtes ini- 
tiales. Cependant certains d'entre eux peuvent conserver tout ou partie de leurs pro- 
30 prietes ou des propriet£s des motifs les composant, ou encore acqu6rir de nouvelles 
proprietds fonctionnelles presentant un avantage pour l'organisme hote, ce qui expli- 



querait la preservation de leur sequence. 

L'existence de motifs endogenes presentant de longs cadres de 
lecture ouverts et/ou soumis a une forte pression de selection peut done gtre indicatrice 
d'une fonction biologique preserved ou acquise, qui peut correspondre a un benefice 

5 pour l'organisme hdte. Ces sequences retrovirales peuvent aussi subir, au cours des 
generations, des modifications discretes qui vont etre a meme de reveiller certaines de 
leurs potentiality et engendrer ou favoriser des processus pathologiques. II est apparu 
recemment necessaire de faire le bilan et d'identifier ces sequences afin de pouvoir 
^valuer leur impact fonctionnel. 

10 Les sequences retrovirales endogenes humaines ou HERVs repr<J- 

sentent une part importante du genome humain. Ces regions retrovirales se presentent 

sous plusieurs formes : 

- des structures retrovirales endogenes completes associant des 
motifs gag, pol et env, flanques de sequences nucleiques repet£es, qui montrent une 

15 analogie significative avec la structure LTR-gag-pol-env-LTR des retrovirus infec- 
tieux, 

- des sequences retrovirales tronquees ; par exemple, les retro- 
transposons sont prives de leur domaine env et les retroposons ne possedent pas les 
regions env et LTR. 

20 Jusqu'a present l'etude de ces regions du genome a ete negligee chez 

1' Homme pour deux raisons essentielles : 

- l'existence d' insertions/deletions qui peuvent decaler le cadre de 
lecture et de mutations qui modifient la sequence. Ces modifications entrainent des 
alterations de la structure et par consequent de la fonction biologique de ces motifs. 

25 - l'absence d' associations averees avec des pathologies humaines. 

La connaissance, r6cente de fragments significativement representa- 
tifs du genome humain et une orientation des recherches vers une <§tude struc- 
ture/fonction des motifs r^troviraux endogenes, ont permis de preciser 1'interSt de ces 
regions. L'implication de sequences endogenes tronquees ou completes dans des 

30 pathologies chez Tanimal est documented ; par exemple leur association avec des 
processus tumoraux a et<§ clairement mise en evidence (S.K. Chattopadhyay et coll., 



1982, Nature, 295, 25-31). Une recherche visant a preciser 1'association ou l'influence 
des HERVs dans des pathologies humaines se justifie done aujourd'hui. 

Une classification des elements HERV a ete proposee (Tonjes R.R. 
et al., AIDS & Hum. Retroviral, 1996, 13, S261-S267; A.M. Krieg et al., FASEB J., 
1992, 6, 2537-2544). Elle est basee sur une homologie de ces sequences avec des 
retrovirus isoles chez les animaux, a l'aide de sondes retrovirales heterologues. En 
effet, en general, les HERVs presentent relativement peu d'homologie avec des retro- 
virus infectieux humains connus. 

Les families de classe I presentent une homologie de sequence avec 
les retrovirus de mammiferes de type C ; on peut citer notamment la superfamille ERI, 
proche du virus MuLV {murine leukemia virus) et du virus BaEV (baboon endoge- 
nous virus). 

Les families de classe II presentent une homologie de sequence avec 
les retrovirus de mammiferes de type B tel que le MMTV (mouse mammary tumour 
virus) ou les retrovirus de type D tel que le SRV (squirrel monkey retrovirus). 

D'autres families ont egalement ete decrites ; parmi celles-ci, on peut 
citer des HERVs qui presentent, de maniere exceptionnelle, une homologie partielle 
avec HTLV-1 (RTVL-H) ou des virus de primates ; HRES-1, par exemple, presente 
une homologie de sequence avec des HTLVs. 

Les programmes de tres grand sequencage du genome humain per- 
mettent aujourd'hui de disposer d'un nombre significatif de nouvelles sequences retro- 
virales. L'usage de logiciels de traitement de donnees permet d'identifier et d'analyser 
ces genes. Dans ce contexte une recherche systematique portant sur l'ensemble des in- 
formations disponibles a ce jour a ete engagee afin d'identifier de nouvelles sequences 
retrovirales endogenes humaines en fonction de certains criteres d'analyse : 

- presence de longs cadres de lecture ouverts conserves au cours de 
revolution de rorganisme hote et pouvant laisser envisager une fonction biologique, 

- analogie avec des sequences deja caracterisees en dehors ou dans le 

domaine des retrovirus, 

- localisation dans des regions de susceptibilite pour certaines patho- 
logies ou a proximite de genes essentiels, par exemple dans les domaine du cancer, des 



regulation du systeme immunitaire ou dans certaines neuropathologies. 

Les recherches effectuees par les Inventeurs, dans des bases de don- 

nees de sequences leur ont permis d' identifier un ensemble de sequences ou de motifs 

retroviraux endogenes dont l'expression normale ou pathologique peut favoriser ou 
5 perturber un effet protecteur vis-a-vis de processus pathologiques, ou intervenir dans 

le declenchement ou raggravation de pathologies. 

La presente invention a pour objet un fragment d'acide nucleique 

purifie, caracterise en ce qu'il comprend tout ou partie d'une sequence codant pour une 

sequence r6trovirale endogene humaine, qui presente au moins des motifs retroviraux 
10 de type env, repondant a la sequence SEQ ID NO:l ou a une sequence presentant un 

niveau d'homologie avec ladite sequence SEQ ID NO:l superieur ou egal a 80% sur 

plus de 190 nucleotides ou superieur ou egal a 70 % sur plus de 600 nucleotides pour 

ies domaines de type env. 

On entend par sequence homologue, aussi bien une sequence qui 
15 presente une identity complete ou partielle avec la sequence SEQ ID NO:l precitee 

qu'une sequence qui presente une similarity partielle avec ladite sequence SEQ ID 

NO:l. 

Selon un mode de realisation avantageux dudit fragment, il presente 
a la fois des motifs retroviraux correspondent a un domaine env et repondant a la 

20 sequence SEQ ID NO.l et des motifs retroviraux correspondant a un domaine gag et 
repondant a la sequence SEQ ID NO:2 ou a une sequence presentant un niveau 
d'homologie superieur ou egal a 80 % sur plus de 190 nucleotides ou superieur ou 
egal a 70 % sur plus de 600 nucleotides pour les domaines de type env et un niveau 
d'homologie superieur ou egal a 90 % sur plus de 700 nucleotides ou superieur ou 

25 egal a 70 % sur plus de 1200 nucleotides pour les domaines de type gag, lesquels 
motifs ne presentent aucune insertion ou deletion de plus de 200 nucleotides. 

Lesdits fragments constituent une nouvelle famille de sequences 
retrovirales endogenes humaines (famille HERV-7q) qui presente une homologie de 
sequence avec les retrovirus MSRV, tels que decrits dans la Demande Internationale 

30 WO 97/06260 ; lesdits fragments selon la presente invention presentent : 
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- deux motifs nucleotidiques repetes de 71 1 pb (figure 3), presentant 
des signaux caracteristiques identifies dans des LTRs {Long Terminal Repeats): 
promoteurs de transcription de type boites TATAA ou CCAAT. Ces domaines repetes 
encadrent trois motifs d£duits de type-gag, pol et em (figure 2). 

5 - un motif de type env (positions 6965 nt - 9550 nt sur la sequence 

SEQ ID NO :3) qui contient un long cadre de lecture ouvert de 1620 nucleotides 
(positions 7874-9493 de la sequence ID NO:3), codant pour une proteine de sequence 
inedite de 540 acides aminds (figure 4) et fragment souligne de la SEQ ID NO:27. On 
retrouve a l'interieur du domaine trans-membranaire de ce domaine env, un motif 

10 peptidique de type CKS-25/CKS-17 (fig.5), reconnu pour presenter des fonctions 
immunosuppressives sur les cellules lymphocytaires botes (M, Mitani et coll., 1987, 
Proc. Natl, Acad. Sci. USA, 84, 237-240). Un domaine de type zinc-finger HX3. 
4 HX 22J3 CX 2 C (Kulkolski et coll., 1992, Mol. Cell. Biol, 12, 2331-2338), que Ton 
retrouve dans des domaines de type integrase est identifie dans un autre cadre de 

15 lecture. Ce domaine env particulier signe la caracteristique de nouveaux motifs retro- 

viraux endogenes. 

- le motif (positions 3065 nt - 4390 nt sur la sequence SEQ ID NO:3) 
de type-gag codant pour des motifs prot&ques selon la figure 6 (SEQ ID NO:51) 
(positions 3118-4198 de la SEQ ID NO:3) a ete identifie grace a des analogies avec 

20 des domaines gag connus. On retrouve, par exemple, la region d'homologie majeure 
QXjEXtR (Benit et coll., 1997, J. Virol, 71, 5652-5657). Le motif de fixation des 
acides nucl&ques CXjCX^IDQC, situe en position C-terminale, est identifie dans un 
autre cadre de lecture (Covey et coll., 1986, Nucleic Acids Res., 14, 623-633). En 
amont du domaine gag on detecte un motif de 182 nucleotides repetoS deux fois (figure 

25 1). 

- le domaine pol prdsente les consensus classiques d'une region pol 
de retrovirus au niveau des domaines protease, transcriptase reverse et RNAse H. On 
retrouve dans pol un motif proche du consensus LLDTGA (Weber et coll., 1988, 
Science, 243, 928-931). Les motifs D et AF, LPQ et SP, et YVDD (Xiong et 

30 Eickbush, 1990, EMBO J., 9, 3353-3362), sont respectivement retrouves dans les 3°, 
4° et 5° boites d'homologie. Les motifs YTDGSS et TDS sont presents dans la region 



delaRNAseH, 

- les regions gag et /><?/ pourraient etre considerees comme jointives 
avec un passage de la region gag a la region/70/ par un decalage du cadre de lecture. 

La presente invention englobe les sequences appartenant a la famille 
5 HERV-7q telle que definie ci-dessus (presence de la sequence SEQ ID NO: 1 ou d'une 
sequence homologue ou presence a la fois des sequences SEQ ID NO:l et SEQ ID 
NO:2) et notamment les sequence SEQ ID NO:3-21 ; elle englobe egalement les 
sequences nucleiques complementaires et les sequences inverses complementaires des 
sequences precedentes ainsi que les fragments issus des regions codantes des 
10 sequences precedentes correspondant a un cadre glissant superieur ou egal a 14 
nucleotides ou leurs sequences complementaires. (SEQ ID NO :30-50) 

Ces differents fragments peuvent avantageusement etre utilises 
comme amorces ou comme sondes ; ils s'hybrident specifiquement a une sequence de 
la famille HERV-7q. 

15 parmi ces fragments, on peut citer, de preference les fragments 

suivants: 

- un fragment de 182 nucleotides repete deux fois, situe en amont du 
domaine gag aux positions 2502-261 1/2613-2865 de la SEQ ID NO:3 ; 

Amorces et sondes sp6cifiaues de la region gag 
20 . une amorce GIF, sens, localisee dans la region amont du domaine 

gag de HERV-7q : 5' GGACCATAGAGGAC ACTCCAGGACTA 3' 
(SEQ ID NO:30); 

- une amorce G1R, anti-sens, localisee dans la region 3' terminale du 
domaine gag : 5' CCTCAGTCCTGCTGCTGGATCATCT 3' (SEQ ID NO :3 1) 

25 . l e fragment de 1 505 nt amplify par le couple G1F-G1R est utilise^ 

afm de generer les sondes aptes a hybrider les differents produits d'amplification des 
PCR; 

- une amorce G2F, sens nichee : (SEQ ID NO :32) 
5' CCTCCAAGCAGTGGGAGGAAGAGAATT 3' 



- une amorce G2R, anti-sens nich6e : (SEQ ID NO :33) 
5' CCTTCCCTGTGTTATTGTGGACATCATT 3' 

- une amorce G4F, sens nichee : (SEQ ID NO :34) 

5' GGAAGAAGTCTATGAATTATTCAATGATGT 3' 

- une amorce G3F, sens nichee: (SEQ ID NO :35) 
5' GGGACACAGAATCAGAACATGGAGATT 3' 

- une amorce G4R, anti-sens nichee : (SEQ ID NO :36) 
5' GCCTTCAGAAGAGTCAGGTGACAGAGA 3' 

- une amorce G5R, anti-sens nichee : (SEQ ID NO :37) 
5'GAGCCTCCAAAGTCCACTTGCCTGA 3' 
Amorces et sondes specifiaues de la region env 

- une amorce E1F, sens : (SEQ ID NO :3 8) 

5' GATTTCAGTATCTACTAGTCTGGGTAGAT 3' 

- une amorce El R, anti-sens : (SEQ ID NO :39) 

5' CTAGGAAATCCAGCTAGTCCTGTCTCA 3' 

- le fragment de 2529 nt amplifie par le couple d' amorces E1F-E1R, 
est utilise afln de generer les sondes aptes a hybrider les differents produits 
d'amplification des PCR. 

- une amorce E2F, sens : (SEQ ID NO :40) 

5' CCAAGACAGCCAACTTAGTTGCAGACAT 3' 

- une amorce E2R, antisens : (SEQ ID NO :4 1 ) 

5' GGACGCTGCATTCTCCATAGAAACTCTT 3' 

- une amorce E3F, sens : (SEQ ID NO :42) 

5' GCAATACTACATACACAACCAACTCCCAA 3' 

- une amorce E3R, anti-sens : (SEQ ID NO :43) 
5' GGGGGAGGCATATCCAACAGTTAGTA 3' 

- une amorce E4F, sens : (SEQ ID NO :44) 

5' CCATCTACACTGAACAAGATTTATACACTT 3' 

- une amorce E4R, anti-sens : (SEQ ID NO :45) 

5' AATGCCAGTACCTAGTGCACCTAGCACT 3' 
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- une amorce E5F, sens : (SEQ ID NO :46) 

5' CGAATACAACGTAGAGCAGAGGAGCTTCGAA 3 ' 

- une amorce E6F, sens : (SEQ ID NO :47) 

5' AGCCCAAGATGCAGTCCAAGACTAAGAT 3' 

5 - une amorce E5R: (SEQ ID NO :48) 

5'GCGTAGTAGAGGTTGTGCAGCTGAGAT 3' 

- une amorce ExF : (SEQ ID NO:49) 
CCCTTACCAAGAGTTTCTATGGAGAAT 

- une amorce ExR : (SEQ ID NO:50) 

10 ACCGCTCTAACTGCTTCCTGCTGAATT 

Tous les oligonucleotides sont concus pour pouvoir generer une 
amorce sens et une amorce anti-sens par un decalage de la sequence de l'amorce de 
reference de 1 a 7 nucleotides vers le cote 5' ou vers le c6te 3': la modification de la 
sequence peut entrainer une modification de la taille de l'amorce de 1 a 7 nucleotides 

15 selon les cas. Les amorces choisies peuvent Stre optimisees selon les cas par un 
raccourcissement ou un allongement portant sur 1 a 9 nucleotides. 

De maniere preferee, l'hybridation, le clonage, le sous-clonage, 
l'obtention, la preparation et l'analyse des acides nucleiques, des peptides et des anti- 
corps, le sequencage des acides nucleiques et des peptides, l'hybridation in situ et 

20 l'immunohistochimie soni realises dans les conditions derates dans les ouvrages 
suivants : 

- Current Protocols in Molecular Biology. Eds. F.M Ausubel, R. 
Brent & R E Kingston et coll. Green Publishing associates and Wiley Interscience. 

- Molecular Cloning: a laboratory manual. Eds. J. Sambrook, E.F. 
25 Fritsch & T. Maniatis. Cold Spring Harbor Laboratory Press. Cold Spring Harbor. 

- The Practical Approach series. Eds. D. Rickwood & B.D. Ames. 
IRL Press and Oxford University Press. En particulier, antibodies I & II; DNA cloning 
I, II, III; Nucleic acid and protein sequence analysis; Nucleic acid hybridization; 
Nucleic acid sequencing ; Oligonucleotide synthesis; Protein purification applications; 

30 Protein purification methods; Protein sequencing; Transcription and translation; Gels 
electrophoresis of nucleic acids; Gels electrophoresis of proteins; Genome analysis; 
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HPLC of macromolecules; Human genetic diseases; Microcomputing in biology; 
Molecular neurobiology; Mutagenicity testing; Essential molecular biology I & II. 

- Proteome research: New frontiers in functional genomics. Eds 

M.R. Wilkins & coll.. Springer. 

5 La sequence retrovirale endogene humaine (SEQ ID NO:3), situee 

sur le bras long du chromosome 7 correspond a la sequence HERV-7q ; elle presente 
10,5 kb (fig. 1 et 2) et repond aux criteres precedemment definis. 

La recherche de domaines presentant des similitudes, tout ou partie, 
avec les regions gag et env de HERV-7q a abouti a 1' identification de nouvelles 

10 sequences r&rovirales endogenes. Ces sequences peuvent presenter la structure d'un 
retrovirus endogene complet comme la sequence retrovirale endogene situee a proxi- 
mite du gene des sous-unites alpha et delta du recepteur des cellules-T, et denommee 
en consequence HERV-TcR ; a titre d'exemple la figure 7 montre la comparaison des 
alignements nucl&ques des domaines gag respectifs de HERV-7q et HERV-TcR 

15 (sequence HG12, SEQ ID NO: 18). On trouve aussi des structures retrovirales 
partielles. Ces domaines retroviraux similaires a HERV-7q sont identifiees dans des 
sequences nucleiques independantes comme le montre leur localisation chromo- 
somique. Des motifs nucleiques (appeles ici, HEx ou HGx et respectivement analo- 
gues a des domaines de type env ou gag) ressemblant aux domaines env ou gag de 

20 HERV-7q ont ete retrouves, a l'aide des banques de donnees precitees : 

- HE2 : chromosome 1 7 (SEQ ID NO:4), 

- HE3 et HG3: chromosome 6 (SEQ ID NO:5 et 6), 

- HE4 : chromosome X (SEQ ID NO:7), 

- HE5 : chromosome X q22 (SEQ ID NO:8), 

25 - HE6 et HG6 : chromosome 1 q23.3-q24.3 (SEQ ID NO:9 et 1 0), 

- HE7 : chromosome 7 pl5 (SEQ ID NO:l 1), 

- HE8 et HG8 : chromosome 19 (SEQ ID NO:12 et 13), 

- HE9 : chromosome X (SEQ ID NO: 14), 

- HE 10 : chromosome X ql3.1-21.1 (SEQ ID NO:15), 

30 - HE1 1 et HG1 1 : chromosome 7 q21-22 (SEQ ID NO:l 6 et 17), 
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- HE 12 et HG12, dans HERV-TcR : chromosome 14 ql 1 .2 (SEQ ID 

NO:18etl9). 

Les alignements des domaines env (fig. 8) et gag (fig. 9) explicitent 
les niveaux d'homologie observes entre les sequences decrites ci-dessus et les sequen- 
5 ces homologues dans HERV-7q. Les analogies peuvent s'etendre aux motifs retro- 

viraux flanquants. 

Une analyse des sequences etiquettes disponibles dans les banques 
de donnees montre que des transcrits appartenant a certains des membres de cette 
famille, en particulier HERV-7q, s'expriment essentiellement dans des tissus d'origine 
10 foetale ou placentaire. 

Des sequences polypeptidiques generees par ces transcrits peuvent 
done etre potentiellement produites et des fonctions ou activites biologiques peuvent 
etre envisagees, par analogie avec des polypeptides biologiquement actifs d'origine 
virale ou retrovirale ; par exemple, les motifs peptidiques de type CKS-17 (fig. 5) ou 
15 CKS-25 (Huang S.S et Huang J.S, J. Biol. Chem. 1998, 273, 4815-4818), qui 
presentent des fonctions immunomodulatrices sur les cellules lymphocytaires notes. 
Les differences de sequence observees et d'eventuelles modifications normales ou 
pathologiques, sont en particulier, a l'origine d'une modulation de la fonction. 

HERV-7q represente le paradigme de la nouvelle famille de 
20 sequences retrovirales endogenes humaines ou de motifs refroviraux endogenes. 

HERV-7q et certaines des sequences retrovirales endogenes apparte- 
nant a sa famille, presentent un domaine de type pol analogue a des sequences retro- 
virales de type pol comme par exemple la region pol identifiee dans le retrovirus 
MSRV associe a la sclerose en plaques et decrit par H. Perron et al. (1997, Proc. Natl. 
25 Acad. Sci. USA, 94, 7583-7588 ; Demande Internationale PCT WO 97/06260). 

Toutefois, les sequences selon la presente invention se distinguent 
des sequences retrovirales exogenes infectieuses analogues a MSRV anterieurement 
decrites en ce que les sequences gag et env, selon l'invention sont significativement 
differentes selon les criteres precedemment definis et en fonction de certaines caracte- 
30 ristiques specifiques, par exemple le long cadre de lecture ouvert du domaine env de 
HERV-7q ; elles seraient a meme de permettre de signer une pathologie lorsqu' elles 
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presentent des insertions, des deletions, des d£calages de cadre de lecture ou des 
mutations. 

En effet, les differences observees entre les sequences humaines de 
type HERV-7q, qui sont isolees d'individus reputes nonnaux et les sequences issues 

5 de certains echantillons d'origine pathologique, ne sont pas distribuees au hasard. Des 
comparaisons menees entre la region gag provenant de particules retrovirales infec- 
tieuses (N° d'accession EMBL: A60168, A60200, A60201, A60171...) et la sequence 
gag correspondante de HERV-7q (fig. 9), permettent d'observer que les mutations 
affectent pr6f6rentiellement des codons non-sens. Par exemple, deux codons non-sens 

10 dans HERV-7q sont remplaces par un codon arginine dans A60200, ce qui permet 
d'obtenir une sequence deduite de 109 acides amines pour HERV-7q et de 166 acides 
amines pour A60200. Les changements de base permettent en consequence de prolon- 
ger le cadre de lecture et de coder potentiellement pour des structures polypeptidiques 
de plus grande taille (figure 10). 

15 De meme, une sequence de type env provenant de particules retro- 

virales infectieuses, presente une analogie significative avec le domaine env de 
HERV-7q (figure 1 1). Ces analogies marquees entre sequences retrovirales exogenes 
et endogenes pourraient etre a l'origine du declenchement ou de l'aggravation de 
certains processus pathologiques, en particulier de certaines maladies auto-immunes, 

20 comme la sclerose en plaques. A cet egard, on peut remarquer que certaines des 
sequences retrovirales endogenes d6crites dans l'invention se situent a proximite ou 
dans des regions reputees presenter une susceptibility pour la sclerose en plaques : par 
exemple HERV-7q et la region 7q21-22 du chromosome7, de meme pour HE12 et 
HG12 dans HERV-TcR et la region du gene codant pour les ehaines alpha et delta du 

25 recepteur des cellules-T, HE2 et le chromosome 1 7, ou HE3 et HG3 et le chromosome 
6. 

On n'observe aucune homologie significative avec des sequences 
retrovirales endogenes deja decrites; par contre, on peut relever une homologie limitee 
et en tout etat de cause inferieure aux criteres definis selon l'invention entre les 
30 domaines env de la sequence HERV-7q (SEQ ID NO :1) et de la sequence HERV-9 
(figure 12). La figure 13 montre des homologies etendues entre la sequence HERV-7q 
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avec une sequence retroviral exogene (N° d'accession EMBL : A60170). 

Les sequences retro virales endogenes humaines appartenant a la 
famille de HERV-7q, peuvent proteger contre des agressions liees a l'environnement 
ou constituer un ben6fice pour l'individu. Cet effet benefique pourrait etre une des 
5 raisons possibles de la pression de selection exercee sur certaines de ces sequences et 
du caractere potentiellement fonctionnel des structures proteiques deduites identi- 
fiees : par exemple le long cadre de lecture ouvert apte a coder pour une nouvelle pro- 
teine et correspondant au domaine env de HERV-7q. 

Les sequences retrovirales endogenes humaines appartenant a la fa- 
1 0 mille de HERV-7q pourraient etre associees par exemple, a des pathologies en relation 
avec les processus lies au cancer, aux neuropathologies a composante auto-immune ou 
a tout autre processus pathologique en association ou non avec des virus ou retrovirus 
endogenes ou exogenes. Leur action pourrait porter sur la declaration, 1 'aggravation, la 
modification du calendrier d'apparition ou encore la protection vis a vis de la maladie. 
15 Dans le contexte duplication a des pathologies autoimmunes 

(comme par exemple le lupus, le syndrome de SjSgren, la polyarthrite rhumatoide, la 
sclerose en plaques...), on peut relever des analogies significatives entre les motifs re- 
troviraux endogenes identifies et des motifs retrouves dans des structures retrovirales 
caracterisees chez des patients presentant des pathologies autoimmunes comme la 
20 sclerose en plaques : par exemple des fragments de domaine gag (recemment dispo- 
nibles dans les banques de donnees) provenant de particules retrovirales infectieuses 
ou encore la sequence complete du domaine pol correspondant au virus MSRV associe 
a la sclerose en plaques. Ces motifs retroviraux possedent des analogies significatives 
avec les sequences endogenes homologues de type HERV-7q, ce qui permet 
25 d'envisager une association directe ou indirecte avec des processus pathologiques, 
dont la sclerose en plaques, en association ou non avec MSRV. On peut relever la 
presence de certaines de ces sequences ou motifs dans des regions de susceptibilite 
pour la sclerose en plaques: par exemple, les sequences HE11 et HG11, autour-de la 
region 7q 21-22 ou encore HE4, HE5, HE6, HE9, HE10 ou HG10 sur le chromosome 
30 X sont localises au niveau ou a proximite de regions chromosomiques regulierement 
associ6es a des genes de susceptibilite pour la sclerose en plaques. Ces sequences 
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seraient done a meme de fournir des moyens de localisation ou d'identification des 
genes de predisposition. 

L'interet de ces sequences depasse le cadre des maladies auto- 
immvmes. En dehors de l'importance generale des motifs retroviraux dans le declen- 
chement ou l'aggravation d'un processus tumoral, bien montre en particulier dans les 
modeles murins (H. Fan dans The retroviridiae, 1994, ed. J.A. Levy, Plenum, New 
York, p. 313-353), ces sequences pourraient se retrouver a proximite ou au sein de 
genes importants et en alterer l'expression : par exemple HERV-TcR et les genes des 
sous-unites alpha et delta du recepteur des cellules-T impliquees dans des perturba- 
tions de la fonction immunitaire. 

L'invention a egalement pour objet les transcrits generes a partir des 
sequences precitees ainsi que celles presentant eventuellement des modifications avec 
les sequences de reference decrites dans l'invention lorsqu'ils sont exprimes chez 
certains patients. 

En effet, les systemes de regulation de l'expression des proteines 
retrovirales de HERV-7q, qui sont presents dans les motifs de type LTR, pourraient 
influencer l'expression de genes situes dans le voisinage chromosomique proche ou 
eloigne et induire des perturbations a caractere immunologique et/ou neurologique. 
Par exemple la sequence retroviral endogene HERV-TcR, se trouve a proximite 
immediate des genes des sous-unites alpha et delta du recepteur des cellules-T prece- 
demment decrit. Les motifs de type LTR pourraient aussi coder pour des superanti- 
genes (Acha-Orbea et Palmer, 1991, Immunol. Today, 12, 356-361). D'une maniere 
generale des proteines retrovirales de type HERV-7q ou apparente, ou leurs formes 
tronquees ou partielles pourraient etre impliquees dans des phenomenes de cytotoxi- 
city ou de superanteginicite, comme par exemple celles issues du long cadre de lecture 
ouvert identifie dans le domaine env (figure 4). 

A cet egard, on peut relever que des motifs retroviraux issus de 
regions defectives sont aptes a presenter des fonctions biologiques: par exemple, la 
proteine d'enveloppe pl5E issue de motifs retroviraux deTectifs, possede une activite 
anti-inflammatoire et immunosuppressive (Snyderman et Ciancolo, 1984, Immunol. 
Today, 5, 240-244). 
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Ces structures sont vraisemblablement a meme de provoquer des 
breches ou d'amplifier des deregulations dans les processus de defense immunitaire. 
Certains des motifs des domaines gag, env et de type LTR peuvent etre associes a une 
fonction particuliere ou peuvent contribuer a la fonction normale ou pathologique des 

5 domaines flanquants. Des recombinaisons avec un element d'origine exogene, retro- 
viral ou non, peut dormer lieu a la production de motifs nucleiques ou proteiques qui 
pourraient soit proteger, soit declencher, ou favoriser ou aggraver une pathologie. De 
meme, une structure retrovirale contenant des elements retroviraux endogenes selon 
l'invention seraient a meme de provoquer un processus pathologique apres passage par 

10 un cycle transitoire exogene puis reintegration dans une region sensible ou critique du 
genome humain. 

De meme, la combinaison de motifs appartenant a la famille de 
HERV-7q, ou d'elements induits par des motifs appartenant a la famille de HERV-7q, 
avec des motifs d'origine ou induits de maniere exogene seraient a meme de pouvoir 
15 declencher, ou aggraver un processus pathologique ou au contraire de favoriser une 
protection ou une remission partielle ou une guerison totale et definitive. 

La detection rendue possible des domaines de type HERV-7q, 
suggere des applications possibles a la fois au niveau prophylactique, du pronostic et 
du diagnostic : par exemple des approches immunologiques ou d' amplification 
20 genique permettant de comparer des individus normaux servant de reference avec des 
patients, seraient a meme de favoriser le depistage, d'ameliorer la detection precoce de 
la declaration de la maladie et/ou de suivre Involution d'une pathologie chez des 
patients pouvant presenter une susceptibilite ou ayant declare la maladie ou encore 
chez des individus consideres comme normaux, selon les criteres cliniques actuels. 
25 Les sondes nucleiques et immunologiques specifiques, telles que 

definies, dans la pr6sente invention sont a meme de favoriser 1' identification et la 
detection de motifs anormalement exprimes dans le cadre de pathologies associees au 
cancer, ou de neuropathologies en particulier autoimmunes, au premier rang 

desquelles la sclerose en plaques. 
30 Des manoeuvres therapeutiques peuvent etre envisages par usage de 

certaines des sequences nucleiques contenues dans HERV-7q et les sequences de la 
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meme famille ou des structures polypeptidiques deduites ou par utilisation de peptides 
ou prolines, ou d'anticorps specifiques. 

La presente invention a egalement pour objet des sequences 
nucleiques hybrides, caracterisees en ce qu'elles comprennent des sequences ou motifs 
5 appartenant a la famille de HERV-7q, ou d'elements induits par des motifs apparte- 
nant a la famille de HERV-7q, avec des motifs d'origine ou induits de maniere 
exogene (sequences retrovirales exogenes) ; de telles sequences hybrides sont vrai- 
semblablement a meme de pouvoir declencher, ou aggraver un processus pathologique 
ou au contraire de favoriser une protection ou une remission partielle ou une guerison 

10 totale et definitive. 

La presente invention a egalement pour objet un reactif de diagnostic 
pour la detection differentielle de sequences nucleiques endogenes humaines 
completes ou partielles, presentant des motifs retroviraux, selectionnes parmi les 
sequences SEQ ID NO :1 et/ou SEQ ID NO :2, caracterise en ce qu'il est s&ectionne 

15 dans le groupe constitue par les sequences SEQ ID NO:1-50, les sequences 
nucleiques complementaires et les sequences inverses complementaires des sequences 
precedentes, par les fragments nucleotidiques capables de definir ou d'identifier les 
sequences SEQ ID NO:l et/ou SEQ ID NO:2 et toute sequence flanquante ou les 
chevauchants ainsi que par les fragments issus des regions codantes des sequences 

20 SEQ ID NO: 1-24, correspondent a un cadre glissant sup6rieur ou egal a 14 nucleotides 
ou leurs sequences complementaires, eventuellement marquees avec un marqueur 
appropri6. 

Les sequences des sondes nucleiques, ribonucleiques et oligo- 
nucleotidiques utilisees seront choisies dans les regions ertv et gag ou leur regions 
25 flanquantes : par exemple les oligonucleotides amorces pour HERV-7q, seront choisis 
dans les regions situees entre les nucleotides 3065 et 4390 et les nucleotides 6965 et 
9550, ainsi que dans toute sequence adjacente (amont ou aval) capable de permettre 
une amplification specifique (figure 1). 

Parmi les marqueurs appropries, on peut citer, les isotopes radio- 
30 actifs, les enzymes, les fluorochromes, des marqueurs chimiques (biotine), les 
haptenes (digoxygenine) et les anticorps ou analogues debases appropriees. 
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De maniere preferee : 

- ledit reactif est selectionne parmi les sequences SEQ ID NO :30-50 
et est apte a etre utilise comme amorce. 

- ledit reactif est selectionne parmi les sequences suivantes : 

un fragment de 1505 nt amplifie par le couple d'amorces SEQ 
ID NO:30 et SEQ ID NO:31 (amorces GIF et G1R), 

un fragment de 2529 nt amplifie par le couple d'amorces SEQ 
ID NO:38 et SEQ ID NO:39 (amorces E1F et E1R) et est apte a etre utilise comme 
sonde. 

La presente invention a egalement pour objet un precede de detec- 
tion rapide et differentiel des sequences nucleiques retrovirales endogenes de type em 
ou em et gag, de leurs variants normaux ou pathologiques, par hybridation et/ou 
amplification genique, realise a partir d'un echantillon biologique, lequel procede est 

caracterise en ce qu'il comprend : 

(a) une etape dans laquelle Ton met en contact un echantillon biolo- 
gique a analyser avec au moins une sonde telle que definie ci-dessus et 

(b) une etape dans laquelle on detecte par tout moyen approprie, le 
ou les produits resultant de rinteraction sequence nucleotidique-sonde. 

Conformement audit procede, il peut comprendre : 

* prealablement a Tetape (a) : 

une etape de preparation du tissu ou du liquide biologique 

concerne, 

. une etape d'extraction de l'acide nucleique a detecter, et 
. au moins un cycle d'amplification genique et 

* posterieurement a l'6tape (b) : 

. une etape de comparaison des sequences nucleiques obtenues dans 
ledit echantillon biologique avec les sequences retrovirales endogenes humaines selon 
l'invention par tout moyen approprie et notamment par sequencage, Southem-blot, 
coupure de restriction, SSCP ou toute autre methode permettant d'identifier une inser- 
tion ou une deletion ou encore une simple mutation entre les differentes sequences 
comparees. 
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Conformement a l'invention, les sequences retrovirales endogenes 
humaines selon l'invention sont ainsi comparees aux sequences nucleiques presentes 
dans l'echantillon biologique a analyser et permettent la detection de sequences 
homologues de patients atteints de pathologies, susceptibles de mettre en jeu une 

modification de leur genome. 

De maniere avantageuse, lesdites comparaisons geniques sont 
menees a partir d'ADN genomique provenant d'individus temoins et de patients. 

Une amplification genique classique par PCR sera men6e a l'aide 
d'amorces 5' -sens et 3' -antisens encadrant ou comprenant la zone a etudier (zone env 
ou zone gag). 

Egalement de maniere avantageuse, les sequences des sondes 
nucleiques, ribonucleiques et oligonucleotidiques utilisees sont choisies dans les 
regions env et gag ou leurs regions flanquantes : par exemple les oligonucleotides 
amorces pour HERV-7q, seront choisis dans les regions situees entre les nucleotides 
3065 et 4390 et les nucleotides 6965 et 9550, ainsi que dans toute sequence adjacente 
(amont ou aval) capable de permettre une amplification specifique (figure 1), comme 
precise ci-dessus. Elles sont de preference selectionnees dans le groupe constitue par 

un fragment de 1505 nt amplifie par le couple d'amorces SEQ 
ID NO:30 et SEQ ID NO:31 (amorces GIF et G1R), 

un fragment de 2529 nt amplifie par le couple d'amorces SEQ 
ID NO:38 et SEQ ID NO:39 (amorces E1F et E1R). 

L'&ape d'amplification genique est notamment realisee a l'aide 
d'une des techniques d'amplification genique suivante : amplification par la QP- 
r6plicase, PCR, LCR, ERA, CPR ou SDA. 

La presente invention a egalement pour objet un procedd de detec- 
tion des transcrits, tels que deTinis ci-dessus, caracterise en ce qu'il comprend : 

- le prelevement des ARN messagers provenant de tissus temoins et 

de tissus prelev6 chez des patients et 

- l'analyse qualitative et/ou quantitative desdits ARNm, par hybri- 
dation in situ, par dot-blot, Northern-blot, RNAse mapping ou RT-PCR, a l'aide d'un 
reactif de diagnostic tel que d£fini ci-dessus. 
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La presente invention a 6galement pour objet des produits de traduc- 
tion, caracterises en ce qu'ils sont codes par une sequence nucleotidique telle que 
deiinie ci-dessus. 

La presente invention a egalement pour objet un peptide, caracterise 
5 en ce qu'il est susceptible d'etre exprime a l'aide d'une sequence nucleotidique selec- 
tionnee dans le groupe constitue par les sequences SEQ ID NO:l-24, telles que defi- 
nies ci-dessus. 

Ledit peptide englobe egalement les peptides ou polypeptides deri- 
ves comprenant entre 5 et 540 aminoacides (SEQ ID NO:25-29 et SEQ ID NO:51 et 
10 leurs fragments d'au moins 5 aminoacides). 

Lesdits peptides sont traduits a partir des sequences nucleiques telles 
que definies ci-dessus, selon les combinaisons offertes par l'usage des differents 

cadres de lecture possibles. 

Selon un mode de realisation avantageux desdits peptides, ils sont 

15 notamment s61ectionnes parmi les sequences SEQ ID NO:25-29 et SEQ ID NO :51 

Selon un autre mode de realisation avantageux desdits peptides, ils 
sont obtenus a partir des sequences nucleiques telles que definies ci-dessus, dans 
lesquelles au moins un codon non-sens peut Stre remplace par un codon codant pour 
1-un des aminoacides suivants : Phe (F), Leu (L), Ser (S), Tyr (Y), Cys (C), Trp (W), 

20 Gin (Q), Arg (R), Lys (K), Glu (E) ou Gly (G). 

L'invention englobe ainsi les peptides deduits ou les proteines 
deduites correspondant a tout ou partie des sequences nucleiques decrites dans 
l'invention, et pr&entant eventuellement des modifications avec les sequences de refe- 
rences decrites dans l'invention, lorsqu'ils sont exprimds chez certains patients. En 

25 particulier, l'invention englobe les sequences completes ou partielles obtenues selon 
les 3 cadres de lecture sens et les 3 cadres de lecture inverses et complementaires. 

(voir SEQ ID NO:22-24) 

De maniere avantageuse, la proteine env de HERV-7q selon Tinven- 
tion presente : 

30 . des sites de N-glvcosvlation . La glycosylation des protdines 

d'enveloppe des retrovirus semble etre directement associee a leurs proprietes fonc- 
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tionnelles, par exemple en influencant le nombre des determinants disponibles dans les 
cellules-T ou en favorisant la reconnaissance des antigenes par les cellules-T. La 
glycosylation pourrait jouer un role dans la declaration ou l'extension d'une patholo- 
gic a incidence autoimmune. Les glycosylations sont necessaires au maintien de la 
5 conformation de certains epitopes, en particulier lors de la realisation d'une proteine 
d'enveloppe recombinante a fin de mise au point d'un reactif de diagnostic et pour 
favoriser l'efficacite d'un eventuel vaccin. Positions 171, 210, 216, 236, 244, 283 et 

411. Nombre prevu au hasard : 3 .2 

. des sites de prenvlation . La prenylation est un mecanisme essentiel 

10 de la fixation a la membrane cellulaire et pour le ciblage de certaines prolines. Ce 
processus de ciblage pourrait etre essentiel pour l'<Slaboration d'agents therapeutiques 
specifiques aptes a interferer dans la realisation et la regulation du trafic de complexes 
cellulaires mettant en jeu des proteines impliquees dans les interactions, la croissance 
et les mouvements cellulaires. Positions 188 et 290. Nombre prevu au hasard : 1.8 

2 5 .des sites de cibl a pe dans le reticulum e ndonlasmiaue. Ces sites 

permettraient d'assurer le ciblage vers le reticulum endoplasmique afin d'effectuer les 
modifications necessaires pour favoriser le franchissement membranaire. Positions 
353 et 43 1 . Nombre prevu au hasard : 0.2 

Lesdits peptides ou proteines peuvent presenter avantageusement des 

20 proprietes biologiques. 

Les produits proteiques generes par les sequences r6trovirales endo- 
genes ou produits parallelement peuvent avantageusement etre caracterises par des 
micro-methodes d'analyse et de quantification des peptides et des proteines: 
HPLC/FPLC ou equivalent, electrophorese capillaire ou equivalent, techniques de 
25 microsequencages (methode d'Edman ou equivalent, spectrometrie de masse...). 

L'invention a dgalement pour objet des anticorps diriges contre l'un 
ou plusieurs des peptides decrits ci-dessus et leur utilisation pour la mise en ceuvre 
d'une methode de detection in vitro, notamment differentielle de la presence d'une 
telle sequence chez un individu. 
30 Lesdits anticorps sont avantageusement des anticorps polyclonaux 

ou monoclonaux obtenus par une reaction immunologique d'un organisme humain, 
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mammiferes, oiseaux ou autres especes vis-a-vis des proteines, telles que definies ci- 
dessus. 

La presente invention a pour objet un precede de depistage 
immunologique differentiel de sequences retrovirales endogenes humaines de la 
5 famille HERV-7q normales ou pathologiques, caracterise en ce qu'il comprend la mise 
en contact d'un echantillon biologique avec un anticorps selon l'invention, la lecture 
du resultat 6tant revelee par un moyen approprie, notamment EIA, ELISA, RIA, 
fluorescence. 

A titre d' illustration, une telle methode de diagnostic in vitro selon 
10 l'invention comprend la mise en contact d'un echantillon biologique preleve chez un 
patient, avec des anticorps selon l'invention et la detection a l'aide de tout precede 
approprte, notamment a l'aide d'anti-immunoglobulines marquee, des complexes 
immunologiques formes entre les prolines produites normalement ou pathologique- 
ment et les anticorps. 

15 Des anticorps monoclonaux ou polyclonaux, produits a partir 

d'antigenes correspondants a des peptides de synthese, de polypeptide ou proteines 
recombinants, permettent de suivre l'expression des peptides ou proteines produits 
normalement ou pathologiquement. L'analyse est de preference effectuee par ELISA, 
ou dquivalent, Western-blot ou equivalent, ou par immunohistochimie. 

20 Les peptides ou proteines, issus des sequences retrovirales endo- 

genes ou dont l'expression est associee a l'expression de ces sequences retrovirales 
endogenes, sont recherche* et identifies. 

La presente invention a egalement pour objet un proc&le d'identifi- 
cation et de detection de motifs retroviraux endogenes, anormalement exprim6s dans 

25 le cadre de pathologies associees au cancer, ou de neuropathologies en particulier 
autoimmunes, au premier rang desquelles la sclerose en plaques, caracterise en ce qu'il 
comprend l'analyse comparee des sequences extraites d'un echantillon biologique avec 

les sequences selon l'invention. 

La presente invention a egalement pour objet Implication des 
30 sequences nucleiques ou des sequences proteiques selon l'invention au diagnostic, au 
pronostic, a 1'evaluation de la susceptibilite genetique, a toutes maladies humaines 
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induites, innees ou acquises en particulier celles a composantes cancereuses, auto- 
immunes et/ou a incidence neurologique, comme la sclerose en plaques, les 
syndromes associes et les maladies neurodegeneratives ou intervient tout ou partie des 
sequences nucleiques selon l'invention et des formes endogenes ou exogenes appa- 
5 rentees. 

La presente invention a egalement pour objet des sequences 
nucleiques hybrides, caracterisees en ce qu'elles comprennent des sequences ou motifs 
nucleiques selon l'invention, combines avec des sequences ou motifs d'origine 
endogene ou d'origine ou induits de maniere exogene. 
jO La presente invention a, en outre, pour objet un vecteur recombinant 

de clonage ou d'expression, caracterise en ce qu'il comprend une sequence nucleique 

conforme a l'invention. 

Outre les dispositions qui precedent, l'invention comprend encore 
d'autres dispositions, qui ressortiront de la description qui va suivre, qui se refere a 
1 5 des exemples de mise en oeuvre du precede objet de la pnSsente invention ainsi qu'aux 
dessins annexes, dans lesquels : 

- Figure 1 . Sequence nucleique humaine HERV-7q, dont T analyse et 
le traitement permettent de caracteriser une nouvelle structure retrovirale endogene. 
Les regions nucleiques repetees de type Rl et R2 et les domaines gag,pol et env sont 

20 soulignes. Les domaine de type gag et env sont en italiques. La region homologue a 
une partie 3' non-codante de Rab7 est doublement soulignee. 

- Figure 2. Cartographie de la region retrovirale endogene humaine 
HERV-7q. La partie haute de la figure correspond a une region anonyme du genome 
humain situee sur le bras long du chromosome 7. On peut identifier les domaines 

25 repetes (1), gag (2), pol (3) et env (4) de HERV-7q. La region env C-terminale (4.3) se 
prolonge en amont en un long cadre de lecture ouvert (4.2). Le domaine 4.1, corres- 
pond a la region N-terminale du domaine env. 

- Figure 3. Comparaison des sequences nucleiques repetees situees 
aux bomes de HERV-7q. Les regions nucleiques repetees 5'(haut) et 3'(bas), sont 

30 comparees et les bases identiques sont indiquees par deux points. 
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- Figure 4. Sequence deduite presentant un cadre de lecture ouvert, 
dans le domaine de type-env de HERV-7q selon la regie du plus long cadre de lecture 
ouvert. 

- Figure 5. Sequences autour du domaine CKS-17 identifies dans 
5 differents domaines env deduits de la famille de HERV-7q et comparison avec des 

motifs CKS-17 de reference. 

1) HE2 - 2) HERV-7q - 3) N° d'acces a GenBank: M85205 - 4) 
HE7- 5) HE9 - 6) CKS-17: le motif peptidique doue de proprietes 
immunomodulatrices est souligne - 7) gp20 de retrovirus de type-D (SRV-Pc). 
10 . Figure 6. Sequence deduite possible du domaine de type-gag iden- 

tify dans HERV-7q etablie selon la regie du plus long cadre de lecture ouvert. X et / 
correspondent respectivement a un codon non-sens et a un decalage de cadre de 
lecture. La sequence soulignee correspond au debut du domaine pol 

- Figure 7. Comparison des regions nucleiques couvrant la region 
15 gag de HERV-7q (haut) et HERV-TcR (bas) et leurs regions flanquantes. Les bases 

identiques sont specifies par deux points. 

- Figure 8. Exemple d'alignements nucleiques du domaine de type 
em de HERV-7q avec des domaines de type env similaires presents dans des 
sequences retrovirales endogenes humaines de la meme famille. Les codons non sens 

20 sontsoulignes:l)HERV-7q-2)HE2-03)HE3-04)HE4. 

- Figure 9. Alignements nucleiques entre le domaine gag de HERV- 
7q et les domaines correspondants appartenant a la meme famille. Comparaison avec 
des fragments de domaines gag isoles d'agents retroviraux infectieux. Sequences 
d'origine r^trovirale infectieuse: N° d'accession dans la banque de donnees EMBL : 

25 1 ) A60168 - 2) A60201 - 3) A60200 - 4) A60171. Sequences retrovirales endogenes 
humaines: 5) HERV-7q - 6) HG1 1 - 7) HG3. Les chiffres indiques dans les sequences 
endogenes, correspondent au nombre de nucleotides inserts afin d'optimiser 
l'alignement avec les sequences de type gag identifies dans des retrovirus d'origine 
infectieuse. 

30 . Figure 10. Alignement d'un motif gag proteique deduit (haut) 

appartenant a un retrovirus infectieux (N° d'accession EMBL : A60200) avec le motif 



# 
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gag proteique deduit (bas) identifie dans HERV-7q. Les codons non-sens sont en gras 
et soulignes. Les acides amines identiques sont specifies par 2 tirets. Un tiret indique 
une deletion ou un acide amine homologue. 

- Figure 11. Alignement d'un motif env (haut) appartenant a un 
5 retrovirus infectieux (N° d'accession EMBL : A60170) avec le motif env (bas) identi- 
fie dans HERV-7q. Les nucleotides homologues sont specifies par deux points et les 

deletions par un tiret. 

- Figure 12. Comparaison entre le domaine env de HERV-7q (haut) 
et le domaine env de HERV-9 (bas). L'homologie de 66 % se limite a la region 3' du 

1 0 domaine env de HERV-7q et HERV-9, respectivement entre les nucleotides 8976 nt et 
9500 nt de HERV-7q et les nucleotides 2898 nt et 3465 nt de HERV-9 (N° 
d'accession a GenBank : X57147). De nombreuses insertions/deletions sont aussi 
observees. 

- Figure 13. Comparaison entre les domaines de type env, de HERV- 
15 7q et d'une sequence retrovirale infectieuse exogene (n° d'accession EMBL: 

A60170). 

II doit etre bien entendu, toutefois, que ces exemples sont donnes 
uniquement a titre d' illustration de l'objet de l'invention, dont ils ne constituent en 
aucune maniere une limitation. 
20 KXEMPLE 1 : Detection, par amplification genique, d'une sequence nuclcique 
appartenant a un domaine de type gag ou env selon l'invention, dans un echan- 
tillon d'ADN genomique d'origine humaine ou de mammiferes. 

L'amplification genique s'effectue a partir d'ADN genomique isole 
a partir du sang. Un traitement anticoagulant est effectue avec 1 ml d'une solution de 

25 citrate (pour un litre : 4,8 g de d'acide citrique, 13,2 g de citrate de sodium, 14,7 g de 
glucose) pour 6 ml de sang frais. Apres centrifugation de 20 ml de sang pendant 15 
mn a 13.0000 g, le surnageant est elimine et la fraction enrichie en globules Wanes est 
transferee dans un nouveau tube, puis recentrifugee dans les memes conditions que 
precedemment. La fraction enrichie en globules blancs est resuspendue dans un 

30 tampon d'extraction (1 0 nm Tris-HCl, 0,1 M EDTA, 20 ^g/ml de RNAse pancreatique 
traitee afin d'eliminer les DNAses, 0,5 % SDS, pH 8,0), puis incubee pendant 1 heure 
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a 37°C. La proteinase K est ajout£e a une concentration finale de 100 ug/ml. La 
suspension des cellules lysees est incubee a 50°C durant 3 heures sous agitation perio- 
dique, puis traitee par un volume egal de phenol equilibre par du Tris-HCl 0,5 M, pH 
8,0. L'emulsion formee est placee sur une roue pendant une heure, puis centrifugee a 
5000 g pendant 15 mn a temperature ambiante. La solution aqueuse est trait£e depro- 
teinise par une triple extraction phenolique afin d'obtenir un niveau de purification 
correspondant a un rapport final d'absorbance A260/A280 superieur a 1,75. La frac- 
tion aqueuse est precipitee par 0,2 vol. d'acetate de sodium 10 M et 2 vol. d'ethanol. 
L'ADN est alors soit preleve avec l'extremite d'une pipette pasteur recourbee, soit 
centrifuge a 5000 g pendant 5 mn a temperature ambiante. L'ADN ou le culot d'ADN 
est lave deux fois par de l'ethanol a 70 %, puis repris dans 1 ml de TE pH 8,0 afin 
d'etre elu6 sous agitation douce pendant 12 a 24 heures. 

Des oligonucleotides specifiques des sequences endogenes decrites 
selon Tinvention sont choisis pour amplifier la region gag ou em des regions retro- 
virales endogenes decrites selon l'invention. L'ADN genomique etudie provient de 
patients presentant des pathologies comme la sclerose en plaques et d'individus repu- 
t^s sains. 

Les ADN polymerases thermostables utilisees ont ete choisies pour 
leur grande fidelite lors du processus d'amplification, comme la Vent, ADN polyme- 
rase (Biolabs) ou equivalent, et sont utilisees selon les conditions prdconisees par le 
foumisseur. 

La strategic d'amplification utilise selon les cas une simple PCR, ou 

une PCR nichee ou semi-nichee. 

Oligonucleotides utilises pour amplifier la region gag : 

- amorce GIF, sens, localisee dans la region amont du domaine gag 

de HERV-7q (SEQ ID NO:30), 

- amorce G1R, anti-sens, localisee dans la region 3' terminale du 

domaine gag (SEQ ID NO:3 1), 

Le fragment de 1505 nt amplifie par le couple G1F-G1R : 1505 nt 
est utilise afin de generer les sondes aptes a hybrider les diff6rents produits 
d'amplification des PCR. 
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- amorce G2F, sens nichee (SEQ ID NO:32), 

- amorce G2R, anti-sens nichee (SEQ ID NO:33), 

- amorce G4F, sens nichee (SEQ ID NO:34), 

- amorce G3F, sens nichee (SEQ ID NO:35), 

- amorce G4R, anti-sens nichee (SEQ ID NO:36), 

- amorce G5R, anti-sens nichee (SEQ ID NO:37), 
Oligonucleotides utilises pour amplifier la region env de HERV-7q : 

- amorce E1F, sens (SEQ ID NO:38), 

- amorce E1R, anti-sens (SEQ ID NO:39), 

Le fragment de 2529 nt amplifie par le couple d'amorces E1F-E1R, 
est utilise arm de generer les sondes aptes a hybrider les differents produits 

d'amplification des PCR. 

- amorce E2F, sens (SEQ ID NO:40), 

- amorce E2R, antisens (SEQ ID NO:41), 

- amorce E3F, sens (SEQ ID NO:42), 

- amorce E3R, anti-sens (SEQ ID NO:43), 

- amorce E4F, sens (SEQ ID NO:44), 

- amorce E4R, anti-sens (SEQ ID NO:45), 

- amorce E5F, sens (SEQ ID NO:46), 

- amorce E6F, sens(SEQ ID NO:47) 

- amorce E5R(SEQ ID NO:48). 

- amorce ExF (SEQ ID NO:49) 

- amorce ExR (SEQ ID NO:50) 

La PCR est r6alisee a partir de 50 a 200 ng d'ADN genomique. Les 
conditions de PCR sont celles preconisees par le foumisseur. Les conditions cycliques 
d'amplification sont realisees dans 50 ^1 : une denaturation de 94°C pendant 1 min., 
une hybridation de 70°C pendant 1 min., et une elongation a 72 °C pendant 1 a 2 min., 
selon les fragments amplifies. Apres 35 cycles, une reaction terminale est menee a 
72°C pendant 10 min. Le sequencage automatique des echantillons amplifies est rea- 
lise a l'aide d'un sequenceur Applied Biosystems de type ABI 377 ou autre modele 
comparable, selon les protocoles fournis par le constructeur. 
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Dans le cas d'une PCR nichee ou semi-nichee, les memes conditions 
experimentales sont utilises, a la seule difference que l'echantillon d'ADN geno- 
mique est remplace par 5 a 10 ul du produit d'amplification issu de la premiere PCR. 

Deux amplifications independantes sont realisees a partir du meme 
5 echantillon. Une reaction de contrdle est realisee en remplacant l'echantillon d'ADN 
par de l'eau afin de detecter d'eventuels contaminants. 

FXKMPLE 2 : Detection par amplification genique d'une sequence nucleique 
selon l'invention dans un echantillon biologique d'ADN genomique preleves chez 
des patients presentant une pathologic candidate declaree ou la suspicion de cette 
10 pathologic 

Le protocole d'amplification est le meme que dans l'exemple 2, mis 
a part l'origine de l'echantillon qui provient de patients presentant une pathologie 
candidate. Un echantillon d'ADN genomique repute normal est systematiquement 
integre dans l'ensemble des echantillons pathologiques amplifies puis analyses. 

! 5 Les produits de PCR sont sepaies sur un gel d'agarose a 1 ,5 %, puis 

transfers en presence de soude 0,4 N sur une membrane de nylon charge. Une hybri- 
dation est realisee avec une sonde specifique correspondant aux fragments de PCR 
amplifies soit par les couples G1F-G1R soit par le couple E1F-E1R. La sonde est 
marquee par incorporation de dUTP-digoxygenine selon le protocole du foumisseur 

20 (Boehringer Mannheim). L'hybridation est effectuee dans un tampon d'hybridation 
(5XSSC, 50 % formamide, 0,1 % lauroyl-sarcosine, 0,02 % SDS, 2 % de reactif de 
blocage Boehringer) pendant une nuit a 42°C. Le Southern est lave 2 fois 5 min. a 
tempdrature ambiante dans une solution de 2XSSC, 0,1% SDS. Puis un lavage a haute 
stringence est effectue a deux reprises pendant 15 min. a 55°C dans une solution 

25 0.1XSSC, 0,1 % SDS. L'hybridation est revSlee selon le protocole du foumisseur 
(Boehringer Mannheim), en presence d'un substrat crunuolurninescent de la phospha- 
tase alcaline, de type CSPD ou CDP-STAR. Le filtre est revele apres une exposition 

de 15min.a60min. 

Une analyse par SSCP (« single strand conformation polymor- 
30 phism ») permet de detecter des modifications discretes de la sequence des fragments 
amplifies par PCR. La PCR est menee en presence de dCTP marque* au P». L'echan- 
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tillon a analyser est denature a 95°C pendant 10 min., en presence de tampon de 
charge, puis immediatement charge sur un gel de polyacrylamide a 10%, contenant 
7.5% de glycerol. La migration s'effectue a 4°C a 8-10 W. Le gel est seche puis auto- 
radiographic. 

5 Les fragments de PCR susceptibles de presenter une alteration de 

leur sequence nucleotidique sont sequences selon l'exemple 2. 

Une hybridation a Paide d'un oligonucleotide specifique (17 mers a 
20 mers) correspondant a la region nucleotidique modifiee permet d' identifier les 
echantillons presentant une modification identique (methode ASO). Brievement le 

10 southern est hybrid** avec un oligonucleotide marque distalement soit au P", soit en 
presence de digoxygenine (selon le protocole de Boehringer Mannheim) puis lav6 
dans des conditions stringentes a 65%C dans une solution 6XSSC, 0.05% pyrophos- 
phate de sodium. 

KXEMPLE 3 : Detection d'une proteine selon l'invention dans un echantiUon 
15 biologique. 

- Preparation d'une fraction proteique purifiee de liquide cephalo- 

rachidien de patients atteints de SEP 

Apres un traitement a 56°C pendant 30 min, et elimination des 
immunoglobulines sur une colonne de proteine G HiTrap (Pharmacia), Tequivalent de 

20 10 ml de LCR est depose^ sur une colonne de DEAE Sepharose CL-6B (Pharmacia). 
L'elution est realisee en Tris-HCl 20 mM pH 8,8, et un gradient de 0 a 0,4 M de NaCl, 
puis la fraction est dialysee 2 fois contre du tampon phosphate-NaCl (PBS). Apres 
concentration sur Ultrafree-MC (Millipore), la fraction est deposee sur une colonne de 
Superose 12 (FPLC Pharmacia) et elude en presence de PBS. Apres separation par 

25 electrophorese en gel de polyacrylamide-SDS, et 61ecto-transfert sur une membrane 
d'lmmobilon-P (Millipore), les bandes proteiques sont soumises a une hydrolyse 
trypsique menagde. 

- Analyse de la fraction proteique par spectrometrie de masse 

Les peptides digeres en presence de trypsine, sont analyses par la 

30 methode de MALDI-TOF, qui permet l'analyse de peptides presents en melange. 
(COTTRELL J.S., Pept. Res., 1997, 7, 1 15-124). Les peptides caracteris6s en fonction 
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de leur masse sont compares aux proteines et aux proteines associees selon 
rinvention. 

FVF.MPLE 4 : Detecti n d'anticorps specifiques anti-domaine en v de HERV-7q. 

L'identification d'un long cadre de lecture ouvert au sein de la 
5 sequence em de HERV-7q, a permis de determiner une sequence proteique deduite 
SEQ ID NO:23, SEQ ID NO:25, SEQ ID NO:27, SEQ ID NO:28, SEQ ID NO:29 
d'une region dudit gene, referencee par SEQ ID NO:22. 

Les sequences de prot&nes deduites des sequences ID NO:23, 25, 
27, 28 et 29 sont positionnees comme suit par rapport a la figure 1 ou a la sequence ID 
10 NO:3 : 

SEQ ID NO:23 : d6but de la sequence codante : position 7874, fin de 
la sequence codante 1" codon non-sens (position 9493) 

SEQ ID NO:25 : d6but de la sequence codante : position 7874, fin de 
la sequence codante 1" codon non-sens (position 9493) (cadre de lecture 1) 
1 5 SEQ ID NO:27 : d6but de la sequence codante : position 6970, fin de 

la sequence codante V codon non-sens (position 9493) (cadre de lecture 1) 

SEQ ID NO:28 : debut de la sequence codante : position 6971, la fin 
du cadre de lecture est decalee selon le cas de 1 , 2 ou 3 codons 

SEQ ID NO:29 : debut de la sequence codante : position 6972, la fin 
20 du cadre de lecture est decalee selon le cas de 1 , 2 ou 3 codons 

Differents peptides correspondant a tout ou partie des SEQ ID 
NO:23, SEQ ID NO:25, SEQ ID NO:27, SEQ ID NO:28, SEQ ID NO:29 ont ete 
synthetises par genie genetique afin de tester leur specificite antigenique vis a vis de 
sera ou de tissus de patients atteints de SEP, par exemple. Brievement, tout ou partie 
25 de la region env de HERV-7q est sous clonee dans les vecteurs pQE30, 3 1 et 32. Les 
vecteurs pQE30, 31 et 32 contiennent en 5' du multi-site de clonage les sequences 
consensuelles pour la transcription (le promoteur fort du bacteriophage T5, 2 opera- 
teurs de l'operon lactose), la traduction (un site d'accrochage ribosomal synthetique). 
De meme, pQE30, 3 1 et 32 possedent en 3', le terminateur de transcription du phage 1 
30 ainsi qu'un codon "Stop" pour la traduction. L'expression de la proteine s'effectue 
apres transformation dans E. colt Ml 5. Le plasmide pQE30, 31 et 32 possedent en 
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amont du site de polyclonage la sequence codante pour une suite de 6 histidines 
presentant une affinity pour les ions nickel. Cet enchainement permet la purification 
de la proteine chimerique exprimee, par adsorption sur une resine constitute d'un 
ligand chelatant, l'acide nitrilotriacetique (NTA), charge de 4 ions nickel (resine NI- 
5 NTA, Qiagen). 

La transformation s'effectue par electroporation ou traitement au 
chlorure de calcium. Par exemple, une colonie d'E. coli Ml 5 est incubee dans 100 ml 
de milieu LB contenant 250 ug de kanamycine, sous agitation a 37°C jusqu'a 
l'obtention d'une DO 600 de 0,5. Apres une centrifugation de 5 minutes a 2000g a 4°C, 

10 le culot bacterien est repris dans 30 ml de solution TFB1 (100 mM de chlorure de 
rubinium, 50 mM de chlorure de manganese, 30 mM d'acetate de potassium, 10 mM 
CaC12, 15% glycerol, pH 5.8), a 4°C pendant 90 minutes. Apres une centrifugation de 
5 minutes a 2000g a 4°C, le culot bacterien est repris dans 4 ml de solution TFB2 (10 
mM de chlorure de rubidium, 10 mM de MOPS, 75 mM CaC12, 15% de glycerol , pH 

1 5 8). Les cellules peuvent etre gardees a -70°C par aliquot de 500 ml. 20 ul de la ligation 
et 125 ul de cellules competentes sont melanges et places dans la glace 20 minutes. 
Apres un choc thermique de 42°C pendant 90 secondes, les cellules sont agitees 90 
minutes a 37°C dans 500 ml de milieu Psi-broth (milieu LB complement par 4 mM 
de MgS0 4 , lOmM de chlorure de potassium). Les cellules transformees sont etalees 

20 sur des boites LB-agar complementees par 25 ng/ml de kanamycine, et lOOng/ml 
d'ampicilline, et les boites sont incubees une nuit a 37°C. 

Les clones potentiellement recombinants sont repiques de maniere 
ordonnee sur un filtre de nylon d6pose sur une boite LB-agar complementee par 25 
Hg/ml de kanamycine et 100 ug/ml d'ampicilline. Apres une nuit a 37°C, les clones 

25 recombinants sont reperes par hybridation de l'ADN plasmidique avec la sonde 
nucleotidique amplifiee par PCR avec le couple d' amorces selon SEQ ID NO:38 et 
SEQ ID NO:39. 

Une colonie independante, contenant rinsert, est ihoculee a 20 ml de 
milieu LB complementee par 25 ug/ml de kanamycine et 100 ^ig/ml d'ampicilline. 
30 Apres une nuit a 37°C sous agitation, 500 ml de meme milieu sont incubes au 1/50° 
par cette preculture jusqu'a l'obtention d'une DO 600 de 0,8, puis 1 a 2 mM final d'IPTG 
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est ajoute. Apres 5 heures, les cellules sont centrifugees 20 minutes a 4000 g. 

Une partie du culot cellulaire est repris dans 5 ml de tampon de 
sonication (50 mM de phosphate de sodium pH 7,8, 300 mM NaCl) puis place dans la 
glace. Apres une rapide sonication, les cellules sont centrifugees 20 minutes a 

5 10000 g. Une partie du culot cellulaire est repris dans 10 ml d'une solution 30 mM 
Tris/HCl-20% sucrose pH8. Les cellules sont incubees 5 a 10 minutes sous agitation, 
apres adjonction de 1 mM EDTA. Apres une centrifugation de 10 minutes a 8000 g a 
4°C, le culot est repris dans 10 ml de 5 mM de MgSC>4 glace. Apres 10 minutes dans 
la glace sous agitation, les cellules sont centrifug6es 10 minutes a 8000 g a 4°C. 

10 Le culot est repris par 5 ml/g dans du tampon A (6 M GuHCl 

(chlorhydrate de guanidine), 0,1M phosphate de sodium, 0,01M Tris/HCl, pH 8), 1 
heure a temperature ambiante. Le lysat est centrifuge 15 minutes a 10000 g a 4°C, et le 
surnageant est complement par 8 ml de resine Ni-NTA, preequilibree dans du tampon 
A. Apres 45 minutes a temperature ambiante, la resine est coulee dans une colonne, 

15 lavee par 10 fois le volume de la colonne par du tampon A puis par 5 fois le volume 
da la colonne par du tampon B (8 M uree, 0,1 M phosphate de sodium, 0,01 M 
Tris/HCl, pH 8). La colonne est lave par du tampon C (8 M uree, 0,1M phosphate de 
sodium, 0,01 M Tris/HCl, pH 6,3) jusqu'a ce que TA280 soit inferieur a 0,01. La 
proteine recombinante est eluee par 10 a 20 ml de tampon D (8 M uree, 0,1 M 

20 phosphate de sodium, 0,01 M Tris/HCl, pH 5,9) puis par 10 a 20 ml de tampon E (8 M 
uree, 0,1 M phosphate de sodium, 0,01 M Tris/HCl, pH 4,5), puis par 20 ml de tampon 
F (6 M HC1, 0,2 M acide acetique). Apres une analyse en SDS-PAGE, la ou les 
fractions purifiees contenant la proteine chimerique ont permis l'obtention d'anticorps 
chez le lapin. Les anticorps obtenus sont testes par Western-blot apres revelation par 

25 un anticorps secondaire couple a la phosphatase alcaline. 

Des anticorps sont obtenus de la meme maniere, a partir de peptides 
synthetis6s chimiquement selon la technique de Merrifield (G. Barany and B. 
Merrifield, 1980, dans The peptides, 2, 1-284, E. Gross et J. Meienhofer, Academic 
Press, New York). 

30 Les anticorps specifiques obtenus sont utilises a fin de detection de 

l'expression serique ou tissulaire de tout ou partie des sequences retrovirales endo- 



31 

genes selon l'invention, dans les cas normaux et pathologiques. 

Les proteines d'origine serique ou tissulaire, sont separees sur gel 
d'acrylamide-SDS puis transferees sur un filtre de nitrocellulose a l'aide d'un appareil 
Novablot 2117-2250 (LKB). Le transfert est effectue sur une feuille de Hybond C- 

5 extra (Amersham) en utilisant un tampon CAPS 100 mMpH 11, methanol, eau 
(V/V/V: 1/1/8) contenant 1 mM de CaCl2- Apres un transfert de 1 heure a 0,8 
mA/cm 2 , la feuille est saturee une heure a temperature ambiante dans du PBS-0,5 % 
gelatine. La feuille est mise en presence de l'anticorps specifique a la concentration de 
1/1000 dans du PBS-0,25 % gelatine. Au bout de 2 heures, le filtre est lave 3 fois 15 

10 minutes dans du PBS-0,1 % de Tween-20, puis le filtre est incube 30 minutes en 
presence d'un anticorps secondaire couple a la phosphatase alcaline (Promega), dilue 
au 1/7500 dans du PBS-0,25% gelatine. Apres trois lavages dans du PBS-0,1 % de 
Tween-20, le filtre est equilibre dans un tampon (100 mM de Tris-HCl pH 9,5, 100 
mM de NaCl, 5 mM de MgCl2> La revelation est effectuee en presence de 45 nl de 

1 5 NBT a 75 mg/ml et 35 nl de BCEP a 50 mg/ml, pour 1 0 ml de tampon de phosphatase 
alcaline. 

Les proteines chimeriques obtenues par genie genetique, sont utili- 
ses aussi a fin de tests d'activite biologique, comme par exemple pour le test 
d'activite biologique du peptide de type CKS-17 identifie dans le domaine env de 

20 HERV-7q (figure 5). 

FXKMPLE 5 : Obtention de sondes ribonucleiques codant pour les sequences env 

de HERV-7q. 

Les fragments de PCR obtenus sont sous clones dans le plasmide 
PGEM 4Z (Promega) qui possede de par et d'autre de son site de polyclonage, les 
25 sequences promotrices pour les ARN polymerase SP6 et T7. 

La methode de competence utilisee est l'electroporation. Le plasmide 
et le fragment de PCR sont hybrides dans un rapport de 50 ng de vecteur (coupe a Sma 
I) pour 100 ng de fragment de PCR (rendu a bout franc par traitement par le fragment 
de Klenow de 1'ADN polymerase). L'incubation a lieu une nuit a 22°C, dans le 
30 tampon de ligation (66 mM Tris-HCl pH 7,5, 5. mM MgC12, 1 mM dithioerythritol, 
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1 mM ATP) en presence de lu. de T4 ADN ligase puis est arretee par denaturation 10 
minutes a 65°C. Parallelement, la souche d'E. Coli JM 105 est ensemencee une nuit a 
37°C dans du milieu LB. Cette preculture est diluee au 1/500 et placee a 37°C jusqu'a 
une DO 600 egale a 1. Pour la suite du mode operatoire les cellules seront toujours 
5 conserves au froid. Apres une centrifugation de 5 minutes a 3500 g a 4°C, le culot 
cellulaire est resuspendu dans 1/4 vol. d'eau glacee ultra-pure. Cette etape est repetee 5 
a 6 fois. Puis le culot est resuspendu dans 1/4000 vol. d'eau; 10 % de glycerol stenle 
sont ajoutes permettant la conservation des cellules electrocompetentes, par aliquots 
de 10 ul a 20°C. A 50 ul de cellules electrocompetentes est ajoute 1 \A de la ligation ; 
10 le tout est soumis a une decharge electrique de 12,5 kV/cm, appliquee pendant 5,8 ms. 
Les cellules sont rapidement remises en suspension dans le milieu SOC, incubees 1 
heure a 37°C, puis etalees, en presence de 2% X-Gal dans du dimethylformamide, et 
10 mM d'IPTG, sur une boite de g&ose LB-agar supplements en ampicilline (100 
ug/ml). Apres une nuit a 37°C, les clones Wanes potentiellement recombinants, sont 
15 repique* de maniere ordonnee sur une boite LB/ampicilline et parallelement sur un 
filtre de nylon depose sur une boite LB/ampicilline. Ces deux boites sont incubees une 
nuit a 37°C. Les clones recombinants sont alors reperes par hybridation avec une 
sonde nucleique amplifiee par PCR avec le couple d'amorces selon SEQ ID NO:38 et 
SEQ ID NO:3 9 et marquee a la digoxygenine. 
20 Les clones recombinants sont cultives dans 50 ml de milieu 

LB/ampicilline (100 ug/ml) en agitation pendant une nuit a 37°C. Apres une centrifu- 
gation a 3500 g pendant 15 minutes a 4°C, le culot bacterieri est repris dans 4ml de 
tampon PI (50 mM Tris-HCl, lOmM EDTA, 400 ug/ml RNase A, pH 8) et 4ml de 
tampon P2 (200 mM NaOH, 1% SDS). Le melange est incube a temperature ambiante 
25 pendant 5 minutes. Apres adjonction de 4ml de tampon P3 (2,55 M d'acetate de potas- 
sium, pH 4,8) le melange est centrifuge a 12000 g pendant 30 minutes a 4°C. Le 
surnageant est applique sur une colonne Qiagen-type 100, pre^quilibree avec 2 ml de 
tampon QBT (750 mM NaCl, 50 mM MOPS, 15% ethanol, pH 7), la colonne est lavee 
avec 2 fois 4ml de tampon QC (1M NaCl, 50 mM MOPS, 15 % ethanol, pH 7) et 
30 l'ADN est &ue avec 2ml de tampon QF (1,2 M NaCl, 50mM MOPS, 15 % ethanol, pH 
8) v L'ADN est precipite avec 0,8 vol. d'isopropanol, et centrifuge a 12000 g a 4°C 
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pendant 30 minutes. Le culot est lave avec de l'ethanol a 70 % glace, puis l'ADN 
plasmidique est repris par 2 fois 1 50 ul de tampon TE. 

Les sondes ribonucleiques sont utilisees comme sondes specifiques, 
en particulier pour la detection des transcrits exprimes par les sequences rdtrovirales 
5 endogenes selon l'invention. 
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Ainsi que cela ressort de ce qui precede, l'invention ne se limite 
nullement a ceux de ses modes de mise en oeuvre, de realisation et ^application qui 
viennent d'etre decrits de facon plus explicite ; elle en embrasse au contraire toutes les 
variantes qui peuvent venir a l'esprit du technicien en la matiere, sans s'ecarter du 
cadre, ni de la portee, de la pr£sente invention. 
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LISTS PE SEQUENCES 



(1) INFORMATIONS GENERALES: 

(i) DEPOSANT: 

(A) NOM: INSTITUT NATIONAL DE LA RECHERCHE MEDICALE - 

INSERM 

(B) RUE: 101 RUE DE TOLBIAC 

(C) VILLE: PARIS 

(E) PAYS: FRANCE 

(F) CODE POSTAL: 75654 CEDEX 

(ii) TITRE DE L ' INVENTION : FAMILLE DE SEQUENCES NUCLEIQUES ET DE 
SEQUENCES PROTEIQUES DEDUITES PRESENT ANT DES MOTIFS RETROV I RAUX ENDOGENES 
HUMAINS ET LEURS APPLICATIONS. 

(iii) NOMBRE DE SEQUENCES: 51 

(iv) FORME DECHI FFRABLE PAR ORDINATEUR: 

(A) TYPE DE SUPPORT: Floppy disk 

(B) ORDINATEUR: IBM PC compatible 

(C) SYSTEME D' EXPLOITATION: PC- DOS /MS - DOS 

(D) LOGICIEL: Patentln Release #1.0, Version #1.30 (OEB) 

<2) INFORMATIONS POUR LA SEQ ID NO: 1: 7env 

(i) CARACTERI S T I QUES DE LA SEQUENCE: 

(A) LONGUEUR: 2599 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 1: 

ATCCCCTGCC TTAATCGCCA AGCTCCTTCA GGAGAACAAA GAACAGGCCA TTACCCTGGA 60 

GAAGACTGGC AACTGATTTT ACCCACAAGC CCAAACCTCA GGGATTTCAG TATCTACTAG 120 

TCTGGGTAGA TACTTTCACG GGTTGGGCAG AGGCCTTCCC CTGTAGGACA GAAAAGGCCC 180 

AAGAGGTAAT AAAG GCACT A GTTCATGAAA TAATTCCCAG ATTCGGACTT CCCCGAGGCT 240 

TACAGAGTGA CAATAGCCCT GCTTTCCAGG CCACAGTAAC CCAGGGAGTA TCCCAGGCGT 300 

TAGGTATACG ATATCACTTA CACTGCGCCT GAAGGCCACA GTCCTCAGGG AAGGT CGAGA 360 

AAATGAATGA AACACTCAAA GGACATCTAA AAAAGCAAAC CCAGGAAACC CACCTCACAT 420 

GGCCTGCTCT GTTGCCTATA GCCTTAAAAA GAATCTGCAA CTTTCCCCAA AAAGCAGGAC 480 

TTAGCCCATA CGAAATGCTG TAT GGAAGGC CCTTCATAAC CAATGACCTT GTGCTTGACC 54 0 

CAAGACAGCC AACTTAGTTG CAGACATCAC CTCCTTAGCC AAATATCAAC AAGTTCTTAA 600 

AACATTACAA GGAACCTATC CCTGAGAAGA GGGAAAAGAA CTATTCCACC CTTGTGACAT 660 

GGTATTAGTC AAGTCCCTTC CCTCTAATTC CCCATCCCTA GATACATCCT GGGAAGGACC 720 

«ACCCAGTC ATTTTATCTA CCCCAACTGC GGTTAAAGTG GCTGGAGTGG AGTCTTGGAT 780 

ACATCACACT TGAGTCAAAT CCTGGATACT GCCAAAGGAA CCTGAAAATC CAGGAGACAA 84 0 
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CGCTAGCTAT TCCTGTGAAC CTCTAGAGGA TTTGCGCCTG CTCTTCAAAC AACAACCAGG 900 

AGGAAAGTAA CTAAAATCAT AAATCCCCAT GGCCCTCCCT TATCATATTT TTCTCTTTAC 960 

TGTTCTTTTA CCCTCTTTCA CTCTCACTGC ACCCCCTCCA TGCCGCTGTA TGACCAGTAG 1020 

CTCCCCTTAC CAAGAGTTTC TATGGAGAAT GCAGCGTCCC GGAAATATTG ATGCCCCATC 1080 

GTATAGGAGT CTTTCTAAGG GAACCCCCAC CTTCACTGCC CACACCCATA TGCCCCGCAA 1140 

CTGCTATCAC TCTGCCACTC TTTGCATGCA TGCAAATACT CATTATTGGA CAGGAAAAAT 1200 

GATTAATCCT AGTTGTCCTG GAGGACTTGG AGTCACTGTC TGTTGGACTT ACTTCACCCA 1260 

AACTGGTATG TCTGATGGGG GTGGAGTTCA AGATCAGGCA AGAGAAAAAC ATGTAAAAGA 1320 

AGTAATCTCC CAACTCACCC GGGTACATGG CACCTCTAGC CCCTACAAAG GACTAGATCT 1380 

CTCAAAACTA CATGAAACCC TCCGTACCCA TACTCGCCTG GTAAGCCTAT TTAATACCAC 1440 

CCTCACTGGG CTCCATGAGG TCTCGGCCCA AAACCCTACT AACTGTTGGA TATGCCTCCC 1500 

CCTGAACTTC AGGCCATATG TTTCAATCCC TGTACCTGAA CAATGGAACA ACTTCAGCAC 1560 

AGAAATAAAC ACCACTTCCG TTTTAGTAGG ACCTCTTGTT TCCAATCTGG AAATAACCCA 1620 

TACCTCAAAC CTCACCTGTG TAAAATTTAG CAATACTACA TACACAACCA ACTCCCAATG 1680 

CATCAGGTGG GTAACTCCTC CCACACAAAT AGTCTGCCTA CCCTCAGGAA TATTTTTTGT 1740 
CTGTGGTACC TCAGCCTATC GTTGTTTGAA TGGCTCTTCA GAATCTATGT GCTTCCTCTC • 1800 

ATTCTTAGTG CCCCCTATGA CCATCTACAC TGAACAAGAT TTATACAGTT ATGTCATATC 1860 

TAAGCCCCGC AACAAAAGAG TACCCATTCT TCCTTTTGTT ATAGGAGCAG GAGTGCTAGG 1920 

TGCACTAGGT ACTGGCATTG GCGGTATCAC AACCTCTACT CAGTTCTACT ACAAACTATC 1980 

TCAAGAACTA AATGGGGACA TGGAACGGGT CGCCGACTCC CTGGTCACCT TGCAAGAT CA 2040 

ACTTAACTCC CTAGCAGCAG TAGTCCTTCA AAATCGAAGA GCTTTAGACT TGCTAACCGC 2100 

TGAAAGAGGG GGAACCTGTT TATTTTTAGG GGAAGAATGC TGTTATTATG TTAATCAATC 2160 

CGGAATCGTC ACTGAGAAAG TTAAAGAAAT TCGAGATCGA ATACAACGTA GAGCAGAGGA 2220 

GCTTCGAAAC ACTGGACCCT GGGGCCTCCT CAGCCAATGG ATGCCCTGGA TTCTCCCCTT 2280 

CTTAGGACCT CTAGCAGCTA TAATATTGCT ACTCCTCTTT GGACCCTGTA TCTTTAACCT 2340 

CCTTGTTAAC TTTGTCTCTT CCAGAATCGA AGCTGTAAAA CTACAAATGG AGCCCAAGAT 24 00 

GCAGTCCAAG ACTAAGATCT ACCGCAGACC CCTGGACCGG CCTGCTAGCC CACGATCTGA 24 60 

TGTTAATGAC ATCAAAGGCA CCCCTCCTGA GGAAATCTCA GCTGCACAAC CTCTACTACG 2520 

CCCCAATTCA GCAGGAAGCA GTTAGAGCGG TCTCGGCCAA CCTCCCCAAC AGCACTTAGG 2580 
TTTTCCTGTT GAGATGGGG 

(2) INFORMATIONS POOR LA SEQ ID NO: 2: gag 

(i) CARACTERI ST I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 1326 paires d bases 

(B) TYPE : nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 
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(ii) TYPE DE MOLECULE: ADN (genomique) 



<xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 2: 



GCCGCCTGGC ACTCCTGAGG 


GAAGTATAAA TTATAACACC 


ATCTTACAGC 


TAGACCTCTT 


60 


TTGTAGAAAA GGCAAATGGA 


GTGAAGTGCC ATAAGTACAA ACTTTCTTTT 


CATTAAGAGA 


120 


CAACTCACAA TTATGTAAAA AGTGTGATTT ATGCCCTACA 


GGAAGCCTTC 


AGAGTCTACC 


180 


TCCCTATCCC AGCATCCCCG 


ACTCCTTCCC CAACTAATAA 


GGACCCCCCT 


TCAACCCAAA 


240 


TGGTCCAAAA GGAGATAGAC 


AAAAGGGTAA ACAGTGAACC 


AAAGAGTGCC 


AATATTCCCC 


300 


AATTATGACC CCTCCAAGCA 


GTGGGAGGAA GAGAATTCGG 


CCCAGCCAGA 


GTGCATGTGC 


360 


CTTTTTCTCT CCCAGACTTA AAGCAAATAA AAACAGACTT 


AGGTAAATTC 


TCAGATAACC 


420 


CTGATGGCTA TATTGATGTT 


TTACAAGGGT TAGGACAATT 


CTTTGATCTG 


ACATGGAGAG 


480 


ATATAATGTC ACTGCTAAAT 


CAGACACTAA CCCCAAATGA 


GAGAAGTGCC 


ACCATAACTG 


54 0 


CAGCCTGAGA GTTTGGCGAT 


CTCTGGTATC TCAGTCAGGT 


CAATGATAGG 


ATGACAACAG 


600 


AGGAAAGAGA ATGATTCCCC 


ACAGGCCAGC AGGCAGTTCC 


CAGTCTAGAC 


CCTCATTGGG 


660 


ACACAGAATC AGAACATGGA 


GATTGGTGCT GCAGACATTT 


GCTAACTTGT 


GTGCTAGAAG 


720 


GACTAAGGAA AACTAGGAAG 


AAGTCTATGA ATTACTCAAT 


GATGTCCACC 


ATAACACAGG 


780 


GAAGGGAAGA AAAT CCTACT 


GCCTTTCTGG AGAGACTAAG GGAGGCATTG AGGAAGCGTG 


840 


CCTCTCTGTC ACCT G ACT CT 


TCTGAAGGCC AACTAATCTT 


AAAGCGTAAG 


TTTATCACTC 


900 


AGTCAGCTGC AGACATTAGA 


AAAAAACTTC AAAAGTCTGC 


CGTAGGCCCG 


GAG CAAAACT 


960 


TAGAAACCCT ATTGAACTTG 


GCAACCTCGG TTTTTTATAA 


TAGAGATCAG 


GAGGAGCAGG 


1020 


CGGAACAGGA CAAACGGGAT 


TAAAAAAAAG GCCACCGCTT 


TAGTCATGAC 


CCTCAGGCAA 


1080 


GTGGACTTTG GAGGCTCTGG 


AAAAGGGAAA AGCTGGGCAA ATTGAATGCC 


TAATAGGGCT 


1140 


TGCTTCCAGT GCGGT CTACA 


AGGACACTTT AAAAAAGATT 


GTCCAAGTAG 


AAGTAAGCCG 


1200 


CCCCCTCGTC CATGCCCCTT 


ATTTCAAGGG AATCACTGGA AGGCCCACTG 


CCCCAGGGGA 


1260 


CAAAGGTCCT CTGAGTCAGA AGCCACTAAC CAGATGATCC 


AGCAGCAGGA 


CTGAGGGTGC 


1320 


CTGGGG 
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(2) INFORMATIONS POUR LA SEQ ID NO: 3: HERV-7q 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 10499 paires de bases 
tP) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 



Cxi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 3: 
CCCTGGGGCG GGCTTCCTTT CTGGGATGAG GGCAAAACGC CTGGAGATAC AGCAATT AT C 
TTGCAACTGA GAGACAGGAC TAGCTGGATT TCCTAGGCCG ACTAAGAATC CCTAAGCCTA 



60 
120 



# 

38 



GCTGGGAAGG 


TGACCACGTC 


CACCTTTAAA 


CACGGGGCTT GCAACTTAGC 


TCACACCTGA 


180 


CCAATCAGAG AGCTCACTAA 


AATGCTAATT 


AGGCAAAGAC AGGAGGTAAA 


GAAATAGCCA 


240 


ATCATCTATT 


GCCTGAGAGC 


ACAGCAGGAG 


GGACAACAAT CGGGATATAA ACCCAGGCAT 


300 


TCGAGCTGGC 


AACAGCAGCC 


CCCCTTTGGG 


TCCCTTCCCT TTGTATGGGA 


GCTGTTTTCA 


360 


TGCTATTTCA 


CTCTATTAAA 


TCTTGCAACT 


GCACTCTTCT GGTCCATGTT 


TCTTACGGCT 


420 


CGAGCTGAGC 


TTTTGCTCAC 


CGTCCACCAC 


TGCTGTTTGC CACCACCGCA 


GACCTGCCGC 


480 


TGACTCCCAT 


CCCTCTGGAT 


CCTGCAGGGT 


GTCCGCTGTG CTCCTGATCC 


AGCGAGGCGC 


540 


CCATTGCCGC 


TCCCAATTGG 


GCTAAAGGCT 


TGCCATTGTT CCTGCACGGC 


TAAGTGCCTG 


600 


GGTTTGTTCT 


AATTGAGCTG 


AACACTAGTC 


ACTGGGTTCC ATGGTTCTCT 


TCTGTGACCC 


660 


ACGGCTTCTA 


ATAGAACTAT 


AACACTTACC 


ACATGGCCCA AGATTCCATT 


CCTTGGAATC 


720 


CGTGAGGCCA 


AGAACTCCAG 


GTCAGAGAAT 


ACGAGGCTTG CCACCATCTT 


GGAAGCGGCC 


780 


TGCTACCATC 


TTGGAAGTGG 


TTCACCACCA 


TCTTGGGAGC TCTGTGAGCA 


AGGACCCCCC 


840 


GGTAACATTT 


TGGCAACCAC 


GAACGGACAT 


CCAAAGTGGT GAGTAATATT 


GGACCACTTT 


900 


CACTTGCTAT 


TCTGTCCTAT 


CCTTCCTTAG 


AATTGGAGGA AAATACCGGG 


CACTTGTCGG 


960 


CCAGTTAAAA 


ACGATTAGTG 


TGGCCACCGG 


ACTTAAGACT CAGGTGTGAG 


GCTATCTGGG 


1020 


GAAGGGCTTT 


CTAACAACCC 


CCAACCCTTC 


TGGGTTGGGG ACTTGGTTTG 


CCTCAAGCCA 


1080 


GCTTCCACTT 


TCAGTTTTCT 


TGGGGAAGCC 


GAGGGCCGAC TAGAGGCAGA AAGCTGTCGT 


1140 


CCTGAACTCC 


CGGCAGTAGC 


CGGTTGAGAT 


CATGGTGTAG CCAGAAGTCT 


CAACAGTCGC 


1200 


CCATGCATGC 


ACCCCTATCT 


TTCCTTCTGA 


CCCATACCTC CTGGGTCCCA 


ACCACAACTT 


1260 


TCTTCAAAGT 


GTAGCCCCAA AATTCTCCTT 


ACCTCTGAAT ATACTTCCTC 


TGATCCCTGC 


- 1320 


CTCCTAGGTA 


CTATTGGTTC 


AGACTTCCAT 


TTCCTCTAGC AAGTTGTATC 


TCCAAAGGGA 


1380 


TCTAAGGAAG 


CTCTGCGCTG 


CGTCCTTAGG 


CACCTAGGCT ATAACCCAGG 


GAGTCTTATC 


1440 


CCTGGTGTCC 


CTCCCAATTT 


AGGCATACAG 


CTCTTGACAT GGGCAGTTAT 


GTAGGACCCA 


1500 


CTCCCCACCA 


CCCTTGCCAG 


GGCCCCAAGT 


TTGTAAATGG CTGAGGGAAA AGAGAGACAG 


1560 


AGGAGAGAGA 


GAGAAATGGA GGAGAAAGAG 


AGAGAGACAG AGAGGAGAGA 


GAGACAGTGA 


1620 


GAGAGACAGA 


AGAGAGAGAG 


AGACAAAGAG 


GAGAGAGAGA GAGTCAAAGA 


GAGAAAGAAA 


1680 


GAGAAAGAAA 


TAGTAAAAAA 


CAGTGTGCCC 


TATTCCTTTA AAAGCCAGGG 


TAAATTTAAA 


1740 


ACCTGTACTT 


GATAATTGAA 


GGTCTTCTCT 


GTGACCCTAT AGCACTCCAA 


TCCACTTTGT 


1800 




AATAAGAGCA TAGGCCGAAA 


GCACTGAGGC CATTGACAAC 


CCGTAGCTTC 


1860 


CCTATCAAAA 


ATCCTTAACC 


CAGTAACCCG 


CAGATGGACC AAATGCATTC 


AGTCGGTAGC 


1920 


GCAACTGCTT 


TGCTAAAAGT 


AGAAAAGTAA 


CTTTTAGAGG AAACCTCATT 


GTGAGCACAC 


1980 


CTCACCTGTT 


CAGAATTATT 


CTAATAAAAA 


AAGCAAAAAG GTAGCTTACT 


AACTCAAAAA 


2040 


TCTTAAAGTA 


TGGGGCTATT 


CTGTTAGAAA 


AAGGTAATGT AACTCCAACC 


ACTGATAATT 


2100 


CCCTTAACCC 


AGCAGATTTC 


CTAACGGGAT 


TTAAATCTTA ATTACCATAC 


AAAGGTCCGA 


2160 


CCAGACCTAG 


GCGGAACTCC 


CTTCAGGACA 


, GGACGATAGA TGGTTCCTCC 


: CAGGTGATTG 


2220 



AGGAAAAAAA 


CCACAATGGG 


T ATT CAGTAA 


TTGATACGGG 


GACTCTTGTG 


GAAGCAGAGT 


2280 


TAGAAAAATT 


GCCTAATAAC 


TGGTCTCCTC 


AAACGTGTGA 


GCTGTTTGCA 


CTCAGCCAAG 


2340 


CCTTAAAGTA 


CTTACAGAAT 


CAAAAGACTA 


TCTCAATCCT 


GATTCAAAAG 


GTTAGCTACA 


2400 


CCCTCTCTGT 


AATGCATTTG 


CATAAGAACT 


TGTTTATGGG 


AATGCATCTT 


GATGGGGCAG 


2460 


CTGGGTTGTT 


ATAAAATAGG 


AACCCAGCCC 


AGCTCTAGGA 


CTCACCCCTG 


AGCGCAAAGG 


2520 


CAATGTTGGG 


CATGCTGGTA 


AAGGACCACT 


AGAATCCAGC 


AGCCCAGACC 


CCTTTCTTTG 


2580 


TGGTCAAGAA AGGCGGGAAA AGGGGTGCAG 


GACTGCTACA TCGGTAAGCA TAACTAATCC 


2640 


GATAAACAGA 


GGTCCATGGG 


TGGTTACGCA 


CCCTGGAAAG 


GAACTCACCC 


CTGAGCACAA 


2700 


AGGCAATGTT 


GGGCACGCTG 


GTAAAGGACC 


ACTAGAATCC 


AGCAGCCTGG 


ACCCCTTTCT 


2760 


TTGTGGTCAA 


GAGAGGCAGG 


AAAACAGGTG 


CAGGACTGCA 


ACATCAGTGA 


GCATAACTAA 


2820 


TTCGATAAGC 


AGAGGTCCAT 


GGGTGGTGAT 


GCACCCTGGA 


AAGAATAAGC 


ATTAGGACCA 


2880 


TAGAGGACAC 


TCCAGGACTA 


AAGCT CATCG 


GAAAATGACT 


AGGGTTGCTG 


GCATCCCTAT 


2940 


GTTCTTTTTT 


CAGATGGGAA 


ACGTTCCCCG 


CAAGACAAAA 


ACGCCCCTAA 


GACGTATTCT 


3000 


GGAGAATTGG 


GACCAATTTG 


ACCCTCAGAC 


ACTAAGAAAG 


AAACGACTTA 


TATTCTTCTG 


3060 


CAGTGCCGCC 


TGGCACTCCT 


GAGGGAAGTA 


TAAATTATAA 


CACCATCTTA 


CAGCTAGACC 


3120 


TCTTTTGTAG AAAAGGCAAA TGGAGTGAAG 


TGCCATAAGT 


ACAAACTTTC 


TTTTCATTAA 


3180 


GAGACAACTC 


ACAATTATGT 


AAAAAGTGTG 


ATTTATGCCC 


TACAGGAAGC 


CTTCAGAGTC 


3240 


TACCTCCCTA TCCCAGCATC 


CCCGACTCCT 


TCCCCAACTA 


ATAAGGACCC 


CCCTTCAACC 


3300 


CAAATGGTCC 


AAAAGGAGAT 


AGACAAAAGG 


GTAAACAGTG 


AACCAAAGAG 


TGCCAATATT 


3360 


CCCCAATTAT 


GACCCCTCCA AGCAGTGGGA 


GGAAGAGAAT 


TCGGCCCAGC 


CAGAGTGCAT 


3420 


GTGCCTTTTT 


CTCTCCCAGA 


CTTAAAGCAA 


ATAAAAACAG 


ACTTAGGTAA 


ATTCTCAGAT 


3480 


AACCCTGATG 


GCTATATTGA 


TGTTTTACAA 




AATTCTTTGA 


TCTGACATGG 


3540 


AGAGATATAA 


TGTCACTGCT 


AAATCAGACA 


CTAACCCCAA 


ATGAGAGAAG 


TGCCACCATA 


3600 


ACTGCAGCCT 


GAGAGTTTGG 


CGATCTCTGG 


TATCTCAGTC 


AGGT CAATG A 


TAGGATGACA 


3660 


ACAGAGGAAA 


GAGAATGATT 


CCCCACAGGC 


CAGCAGGCAG 


TTCCCAGTCT 


AGACCCTCAT 


3720 


TGGGACACAG 


AATCAGAACA 


TGGAGATTGG 


TGCTGCAGAC 


ATTTGCTAAC 


TTGTGTGCTA 


3780 


GAAGGACTAA 


GGAAAACTAG 


GAAGAAGTCT 


ATGAATTACT 


CAATGATGTC 


CACCATAACA 


3840 


CAGGGAAGGG 


AAGAAAATCC 


TACTGCCTTT 


CTGGAGAGAC 


TAAGGGAGGC 


ATTGAGGAAG 


3900 


CGTGCCTCTC 


TGTCACCTGA 


CTCTTCTGAA 


GGCCAACTAA 


TCTTAAAGCG 


TAAGTTTATC 


3960 


ACTCAGTCAG 


CTGCAGACAT 


TAGAAAAAAA 


CTTCAAAAGT 


CTGCCGTAGG 


CCCGGAGCAA 


4020 


AACTTAGAAA 


CCCTATTGAA 


CTTGGCAACC 


TCGGTTTTTT 


ATAATAGAGA 


TCAGGAGGAG 


4080 


CAGGCGGAAC 


AGGACAAACG 


GGATTAAAAA 


AAAGGCCACC 


GCTTTAGTCA 


TGACCCTCAG 


4140 


GCAAGTGGAC 


TTTGGAGGCT 


CTGGAAAAGG 


GAAAAGCTGG 


GCAAATTGAA 


TGCCTAATAG 


4200 


GGCTTGCTTC 


CAGTGCGGTC 


TACAAGGACA 


CTTTAAAAAA 


GATTGTCCAA 


GTAGAAGTAA 


4260 



40 



GCCGCCCCCT 


CGTCCATGCC 


CCTTATTTCA 


AGGGAATCAC 


TGGAAGGCCC 


ACTGCCCCAG 


4320 


GGGACAAAGG 


TCCTCTGAGT 


CAGAAGCCAC 


TAACCAGATG 


ATCCAGCAGC 


AGGACTGAGG 


4380 


GtGCCTGGGG 


CAAGCGCCAT 


CCCATGCCAT 


CACCCTCACA 


GAGCCCTGGG 


TATGCTTGAC 


4440 


CATTGAGGGC 


CAGGAGGTTG 


TCTCCTGGAC 


ACTGGTGCGG 


TCTTCTTAGT 


CTTACTCTTC 


4500 


TGTCCCGGAC 


AACTGTCCTC 


CAGATCTGTC 


ACTATCTGAG 


GGGGTCCTAA 


GACGGGCAGT 


4560 


CACTAGATAC 


TTCTCCCAGC 


CACTAAGTTA 


TGACTGGGGA 


GCTTTATTCT 


TTTCACATGC 


4620 


TTTT CT AATT 

X X X X * * 


ATGCTTGAAA 


GCCCCACTAC 


CTTGTTAGGG 


AGAGACATTC 


TAGCAAAAGC 


4680 


AGGGGCCATT 


ATACACCTGA 


ACATAGGAGA 


AGGAACACCC 


GTTTGTTGTC 


CCCTGCTTGA 


4740 


GG AAGGAATT 


AATCCTGAAG 


TCTGGGCAAC 


AGAAGGACAA 


TATGGACGAG 


CAAAGAATGC 


4800 


CCGTCCTGTT 


CAAGTTAAAC 


TAAAGGATTC 


CACCTCCTTT 


CCCTACCAAA 


GGCAGTACCC 


4860 


P CT CAGACCC 


AAGGCCCAAC 


AAGGACTCCA 


AAAGATTGTT 


AAGGACCTAA 


AAGCCCAAGG 


4920 


PCTAGTAAAA 

V* w » r»w * ******** 


CCATGCAGTA 


ACCCCTGCAG 


TACTCCAATT 


TTAGGAGTAC 


AGAAACCCAA 


4980 


PAGACAGTGG 


AGGTTAGTGC 


AAGATCTCAG 


GATTATCAAT 


GAGGCTGTTG 


TTCCTCTATA 


5040 


GCCAGCTGTA 


CCTAGCCCTT 


ATACTCTGCT 


TTCCCAAATA 


CCAGAGGAAG 


CAGAGTGGTT 


5100 


T AC AGT C CT G 

X fV^fVv X WW- i W 


GACCTTCAGG 


ATGCCTTCTT 


CTGCATCCCT 


GTACATCCTG 


ACTCTCAATT 


5160 


TTTfiTTTGCC 

Lil JlOl 2. J- w> w w 


TTTGAAGATA 


CTTCAAACCC 


AACATCTCAA 


CTCACCTGGA 


CTATTTTACC 


5220 


PPAAGGGTTC 


AGGGATAGTC 


CCCATCTATT 


TGGCCAGGCA 


TTAGCCCAAG 


ACTTGAGCCA 


5280 


ATP PT CAT AC 


CTGGACACTT 


GTCCTTCGGT 


AGGTGGATGA 


TTTACTTTTG 


GCCGCCCATT 


5340 


P AG AAAC CT T 


GTGCCATCAA 


GCCACCCAAG 


CGCTCTTCAA 


TTTCCTCGCT 


ACCTGTGGCT 


5400 


ACATGGTTTC 


CAAACCAAAG 


GCTCAACTCT 


GCTCACAGCA 


GGTTACTTAG 


GGCTAAAATT 


5460 


AT C CAAAGGC 


ACCAGGGCCC 


TCAGTGAGGA 


ACACAT CCAG 


CCTATACTGG 


CTTATCCTCA 


5520 


TCCCAAAACC 


CTAAAGCAAC 


TAAGGGGATT 


CCTTGGCGTA 


ATAGGTTTCT 


GCCGAAAATG 


5580 


GATTCCCAGG 


TATGGCGAAA 


TAGCCAGGTC 


ATTAAATACA 


CTAATT AAGG 


AAACTCAGAA 


564 0 


AG C CAATACC 


CATTTAGTAA 


GATGGACAAC 


TGAAGTAGAA 


GTGGCTTTCC 


AGGCCCTAAC 


5700 


CCAAGCCCCA 

w^wXWJwwww** 


GTGTTAAGTT 


TGCGAACAGG 


GCAAGACTTT 


TCTTCATATG 


TCACAGAAAA 


5760 


AACAGGAATA 


GCTCTAGGAG 


TCCTTACACA 


GATCCGAGGG 


ATGAGCTTGC 


AACCTGTGGC 


5820 


ATACCTGACT 

f% A X* W W * W*» W A 


AAGGAAATTG 


ATGTAGTGGC 


AAAGGGTTGA 


CCTCATTGTT 


TACGGGTAGT 


5880 


GGT GGCAGT A 


GCAGTCT TAG 


TATCTGAAGC 


AGTTAAAATA 


ATACAGGGAA 


GAGATCTTAC 


594 0 


TGTGT GGACA 


TCTCATGATG 


TGAATGGCAT 


ACTCACTGCT 


AAAGGAGACT 


TGTGGCTGTC 


6000 


AGACAACTGT 


TTACTTAAAT 


GTCAGGCTCT 


ATTACTTGAA 


GGGCCAGTGC 


TGCGACTGTG 


6060 


CACTTGTGCA 


ACTCTTAAwC 




TPTTPPAGAP 

1 1 wwAUftw 


AATGAAGAAA 


AGATAAAACA 


6120 


TAACTGTCAA 


CAAGTAATTT 


CTCAAACCTA 


TGCCACTCGA 


GGGGACCTTT 


TAGAGGTTCC 


6180 


TTTGACTGAT 


CCCGACCTCA 


ACTTGTATAC 


TGATGGAAGT 


TCCTTTGTAG 


AAAAAGGACT 


624 0 


TCGAAAAGTG 


GGGTATGCAG 


TGGTCAGTGA 


TAATGGAATA 


CTTGAAAGTA 


ATCCCCTCAC 


6300 


TCCAGGAACT 


AGTGCTCAGC 


TAGCAGAACT 


AATAGCCCTC 


ACTTGGGCAC 


TAGAATTAGG 


6360 
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A C 7A Zi fZ A A A AA 


AGGGCAAATA 


TATATACAGA 


CTCTAAATAT 


GCTTACCTAG 


TCCTCCATGC 


6420 


fi t p f Zi fzf* A 


ATATGGAAAG 


AAAGGGAATT 


CCTAACTTCT 


GAGAGAACAC 


CTATCAAACA 


6480 




ATTAGGAAAT 


TATTATTGGC 


TGTACAGAAA 


CCTAAAGAGG 


TGGCAGTCTT 


6540 


ACACTvsUUIjU 


GGTCATCAGA AAGGAAAGGA AAGGGAAATA GAAGAGAACT 


GCCAAGCAGA 


6600 


TAT T GAAva C L» 


AAAAGAGCTG 


CAAGGCAGGA 


CCCTCCATTA 


GAAATGCTTA 


TAAAACAACC 


6660 


C CT AGT AT 


GGTAATCCCC 


TCCGGGAAAC 


CAAGCCCCAG 


TACTCAGCAG 


GAGAAACAGA 


6720 


ATGGGGAAt-C 


TCACGAGGAC 


AGTTTTCTCC 


CCTCGGGACG 


GCTAGCCACT 


GAAGAAGGGA 


6780 


AAATACTTTT 


GCCTGCAACT 


ATCCAATGGA 


AATTACTTAA AACCCTTCAT 


CAAACCTTTC 


6840 


ACTTAGGCAT 


CGATAGCACC 


CATCAGATGG 


CCAAATCATT 


ATTTACTGGA 


CCAGGCCTTT 


6900 


T C AAAACT AT 


CAAGCAGATA 


GTCAGGGCCT 


GTGAAGTGTG 


CCAGAGAAAT 


AATCCCCTGC 


6960 


CTTATCGCCA 


AGCTCCTTCA 


GGAGAACAAA 


GAACAGGCCA 


TTACCCTGGA 


GAAGACTGGC 


7020 


AACTGATTTT 


ACCCACAAGC 


CCAAACCTCA 


GGGATTTCAG 


TATCTACTAG 


TCTGGGTAGA 


7080 


TACTTTCACG 


GGTTGGGCAG 


AGGCCTTCCC 


CTGTAGGACA 


GAAAAGGCCC 


AAGAGGTAAT 


7140 


AAAGGCACTA 


GTTCATGAAA 


TAATTCCCAG 


ATTCGGACTT 


CCCCGAGGCT 


TACAGAGTGA 


7200 


CAATAGCCCT 


GCTTTCCAGG 


CCACAGTAAC 


CCAGGGAGTA TCCCAGGCGT 


TAGGTATACG 


7260 


ATATCACTTA 


CACTGCGCCT 


GAAGGCCACA GTCCTCAGGG AAGGTCGAGA AAATGAATGA 


7320 


AACACT C AAA 


GGACATCTAA 


AAAAGCAAAC 


CCAGGAAACC 


CACCTCACAT 


GGCCTGCTCT 


7380 


GTTGCCTATA 


GCCTTAAAAA 


GAATCTGCAA 


CTTTCCCCAA AAAGCAGGAC 


TTAGCCCATA 


7440 


CGAAATGCTG 


TATGGAAGGC 


CCTT CATAAC 


CAATGACCTT 


GTGCTTGACC 


CAAGACAGCC 


7500 


AACTTAGTTG 


CAGACATCAC 


CTCCTTAGCC 


AAATATCAAC 


AAGTT CTTAA 


AACATTACAA 


7560 


GGAAC CT AT C 


CCTGAGAAGA 


GGGAAAAGAA 


CTATTCCACC 


CTTGTGACAT 


GGTATTAGTC 


7620 


AAGTCCCTTC 


CCTCTAATTC 


CCCATCCCTA 


GATACATCCT 


GGGAAGGACC 


CTACCCAGTC 


7680 


ATTTT AT CTA 


CCCCAACTGC 


GGTTAAAGTG 


GCTGGAGTGG 


AGTCTTGGAT 


ACATCACACT 


7740 


TGAGTCAAAT 


CCTGGATACT 


GCCAAAGGAA 


CCTGAAAATC 


CAGGAGACAA 


CGCTAGCTAT 


7800 


TCCTGTGAAC 


CTCTAGAGGA 


TTTGCGCCTG 


CTCTTCAAAC 


AACAACCAGG 


AGGAAAGTAA 


7860 


CTAAAATCAT 


AAATCCCCAT 


GGCCCTCCCT 


TATCATATTT 


TTCTCTTTAC 


TGTTCTTTTA 


7920 


CCCTCTTTCA 


CTCTCACTGC 


ACCCCCTCCA 


TGCCGCTGTA 


TGACCAGTAG 


CTCCCCTTAC 


7980 


CAAGAGTTTC 


TATGGAGAAT 


GCAGCGTCCC 


GGAAATATTG 


ATGCCCCATC 


GTATAGGAGT 


8040 


CTTTCTAAGG 


GAACCCCCAC 


CTTCACTGCC 


CACACCCATA TGCCCCGCAA 


CTGCTATCAC 


o 1 on 
olUU 


TCTGCCACTC 


TTTGCATGCA 


TGCAAATACT 


CATTATTGGA 


CAGGAAAAAT 


GATTAATCCT 


8160 


AGTTGTCCTG 


GAGGACTTGG 


AGTCACTGTC 


TGTTGGACTT 


ACTTCACCCA 


AACTGGTATG 


8220 


TCTGATGGGG 


GTGGAGTTCA 


AGATCAGGCA 


AGAGAAAAAC 


ATGTAAAAGA 


AGTAATCTCC 


8280 


CAACTCACCC 


GGGTACATGG 


CACCTCTAGC 


CCCTACAAAG 


GACTAGATCT 


CTCAAAACTA 


8340 


CATGAAACCC 


TCCGTACCCA 


TACTCGCCTG 


GTAAGCCTAT 


TTAATACCAC 


CCTCACTGGG 


8400 
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CTCCATGAGG 


TCTCGGCCCA 


AAACCCTACT 


AACTGTTGGA 


TATGCCTCCC 


CCTGAACTTC 


8460 


AGGCCATATG 


TTTCAATCCC 


TGTACCTGAA 


CAATGGAACA 


ACTTCAGCAC 


AGAAATAAAC 


8520 


ACCACTTCCG 


TTTTAGTAGG 


ACCTCTTGTT 


TCCAATCTGG 


AAATAACCCA 


TACCTCAAAC 


8580 


CTCACCTGTG 


TAAAATTTAG 


CAATACTACA 


TACACAACCA 


ACTCCCAATG 


CATCAGGTGG 


8640 


GTAACTCCTC 


CCACACAAAT 


AGTCTGCCTA 


CCCTCAGGAA 


TATTTTTTGT 


CTGTGGTACC 


8700 


TCAGCCTATC 


GTTGTTTGAA 


TGGCTCTTCA 


GAATCTATGT 


GCTTCCTCTC 


ATTCTTAGTG 


8760 


CCCCCTATGA 


CCATCTACAC 


TGAACAAGAT 


TTATACAGTT 


ATGTCATATC 


TAAGCCCCGC 


8820 


AACAAAAGAG 


TACCCATTCT 


TCCTTTTGTT 


ATAGGAGCAG 


GAGTGCTAGG 


TGCACTAGGT 


8880 


AfTGGCATTG 


GCGGTATCAC AACCTCTACT 


CAGTTCTACT 


ACAAACTATC 


TCAAGAACTA 


8940 


AATGGGGACA 


TGGAACGGGT 


CGCCGACTCC 


CTGGTCACCT 


TGCAAGATCA ACTTAACTCC 


9000 


r T AGCAG CAG 


TAGTCCTTCA AAATCGAAGA 


GCTTTAGACT 


TGCTAACCGC 


TGAAAGAGGG 


9060 




TATTTTTAGG 


GGAAGAATGC 


TGTTATTATG 


TTAATCAATC 


CGGAATCGTC 


9120 


2i PTGZVG A AAG 


TTAAAGAAAT 


TCGAGATCGA ATACAACGTA 


GAGCAGAGGA 


GCTTCGAAAC 


9180 


a r"Tf^ a rp rT 

AW* 1 *■ 


GGGGCCTCCT 


CAGCCAATGG 


ATGCCCTGGA 


TTCTCCCCTT 


CTTAGGACCT 


9240 


^w. XrtUL»/4VJV» X*» 


TAATATTGCT 


ACTCCTCTTT 


GGACCCTGTA 


TCTTTAACCT 


CCTTGTTAAC 


9300 




CCAGAATCGA AGCTGTAAAA 


CTACAAATGG 


AG CCCAAGAT 


GCAGTCCAAG 


9360 




ACCGCAGACC 


CCTGGACCGG 


CCTGCTAGCC 


CACGATCTGA TGTTAATGAC 


9420 


AT CAAAGG C A 


CCCCTCCTGA 


GGAAATCTCA 


GCTGCACAAC 


CTCTACTACG 


CCCCAATTCA 


9480 


GCAGGAAGCA 


GTTAGAGCGG 


TCTCGGCCAA 


CCTCCCCAAC 


AGCACTTAGG 


TTTTCCTGTT 


9540 


GAGATGGGGG 


ACTGAGAGAC AGGACTAGCT 


GGATTTCCTA 


GGCTGACTAA 


GAATCCCTAA 


9600 


G P PT AG CTGG 


GAAGGTGACC 


ACATCCACCT 


TTAAACACGG 


GGCTTGCAAC 


TTAGCTCACA 


9660 


PPTGAPCAAT 


CAGAGAGCTC 


ACTAAAATGC 


TAATTAGGCA 


AAGACAGGAG 


GTAAAGAAAT 


9720 


A GPC AAT CAT 


CTATTGCCTG 


AGAGCACAGC AGGAGGGACA ATGATCGGGA 


TATAAACCCA 


9780 


a f^TPTTPG AG 

Aw X V* X X UwnvJ 


CCGGCAACGG 


CAACCCCCTT 


TGGGTCCCCT 


CCCTTTGTAT 


GGGAGCTCTG 


9840 


TTTTPATGCT 
ill xVannxwvxx 


ATTTCACTCT 


ATTAAATCTT 


GCAACTGCAC 


TCTTCTGGTC 


CATGTTTCTT 


9900 


APGGCTTGAG 


CTGAGCTTTC 


GCTCGCCATC 


CACCACTGCT 


GTTTGCCGCC 


ACCGCAGACC 


9960 




TCGCATCCCT 


CTGGATCATG 


CAGGGTGTCC 


GCTGTGCTCC 


TGATCCAGCG 


10020 


li fltZ C* Zi c p P AT 


TGCCGCTCCC 


AATCGGGCTA 


AAGGCTTGCC 


ATTGTTCCTG 


CATGGCTAAG 


10080 


J. UlrW <i WV»VJ X X 


CATCCTAATT 


GAGCTGAACA 


CTAGTCACTG 


GGTTCCATGG 


TTCTCTTCTG 


10140 


•PGAPPCACAG 


CTTCTAATAG 


AGCTATAACA 


CTCACCGCAT 


GGCCCAAGGT 


TCCATTCCTT 


10200 


GAATCCATAA 


GGCCAAGAAC 


CCCAGGTCAG 


AGAACACGAG 


GCTTGCCACC 


ATCTTGGGAG 


10260 


CTCTGTGAGC 


AAGGACCCCC 


AAGTAACACA 


ACCATGAGGG 


TGCAAATGCA 


TGGGCCACTA 


10320 


ATGGTAGAGC 


AAGAAAACAG 


AAGGGCCCTG 


GTTCCTCGAA 


GGCATCAGTG 


AGCTGAAATG 


10380 


CCTGCCCTGG 


ATGTCCTATT 


CCTAGGTGTT 


TTTCTGCCTG 


AAGCAGATTA 


AACCCTTTGT 


10440 


TCACTTCTCC 


AAGTAGGGCT 


TCTATTACAG 


CCCAAATCAA 


TCCCCACCCC 


AGATGACAT 


10499 
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(2) INFORMATIONS POUR LA SEQ ID NO: 4: HE2 

(i) CARACTERI ST I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 2784 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique ) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 4: 
CTCCTTGAGGAGAACAAAGAACAGGCCACTACCCAAGAGAAGACTGGCAACTAGA 

ATCTCAGGGATTTCAGTATCTACTAGTTTGGGTAGATACTTTCACTGGTTGGGCAGAGGCCTTCCCCTGTAGG 
ACAGAAAAGGCCC^GAGGTAATAAACGTTCATGAAATAATTC^ 

GTGACAATGGCCCTGCTTTCAAGGCTACAGTAACCO^GGAGTATCCCAGGTGTTAGGTATACAATATCACTC 
ACACTGCGCCTGGAGGCCACAGTCCTCAGGAAAGGTGGAGAAAATGAACAAAACACTCAAATGACATCTAAAA 
AAGCTAATCCAGGAAACCCACCTCGCATGGCCTGCTCTGTTGCCTATAGCCTTACTAAGAATCCGAAACTCTC 
CCCAAAAAGCAGGACTTAGTCCATACAAAATGCTGTATGGACGGCCCTTCCTAACCAATGAACTTGGGCTTGA 
CCGAGAGACAGCCAACTTAGTTGCAGACATCATCTCCTTAGCCAAATATC^ 

GGAGCCTGTCCCCAAGAAGAGGGAAAGGAACTATTCCACCCTGGTGACATGGTATTAGTCAAGTCCCTTCCCT 
CTAATTCCCCATCCCTAGATACATCCTGGGAAGGA7U^CTACCCAGCCATTTTATCTACCCTAACGGCAGTTAA 
AGTGGCTGGAGCGGAGTCTTGGATAGATCACACTGAAGTCAAACCCTGGATACTGC 

CCATGAGACAATGCTAGCTATTCCTGTGAACCTCTAGAGGATCTGCGCCTGCTCTTCAAATGACAACCAGGGG 
GAAAGT71ACTAAAATCGTAAATCCCCTGGCCCTCCCTTATCATATTTTTCTCTTTACTGTTCTCTTACCCCCT 

TTCACTCTCACTGC^CCCCGTCCATGCCACTGC^^ 

CAAGAGTTTCTATGGAGAATGCAGCGTCCCGGAAATATTGATGCCCCATTGTATAGGA 
CCCCCACCTTCACTGCCCACACCC^TATGCCCC^C^ 

TACTCATTATTGGACAGGAAAAACGATTAATCCCAGTTGTCCTGGAGGACTTGGAGGACTCACTTCACTCATA 

CCAGTATGTCTGATGGGGGTGGAGTTCAAGATCAGGCAACAGAAAAACACATAAAGGAAGTAATCTCCCAACT 

GACCTGGGTACATAGCACCCCTGGCCCCTACAAAGGACTAGATCTCTCAAAACTACATGAAACCCTCCATACC 

CATACTGGCCTGGTAAGCCTATTTAATACCACCCTGACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTA 

ACTGTTGGATGTGCCTCCCCCTGCACTTTAGGCCATACATTTCAATCCCTATACCTGAAC^UVTGGAACAACTT 

CAGCACAGAAATAAACACCACTTCTGTTTTAGTAGGTCCTCTTTCCAATCTGGA7ATAACCCATACCTCAAAC 

CTCACCTGTGTAAAATTTAGCAATACTATAGACACAGCCAACTCCCAATGCATCAGGTGGGTAACTCCTCCCA 

CACGAATAGTCTGCCTACCCTCAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCATTGTTTGAATGGCTC 

TTC^GAATCTGTGTGCTTCCTCTCATTCTTAGTGGCCCCTATGCCCATCTACACTGAACAAGATTTATACAAT 

CATGTCATACCTAAGCCCCGCT^CAAAAGAGTACCCATTCTTCCTTTTGTTATTGGAGCAGGAGTGCTAGGCG 

GAGTAGCTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACT^AACTGTCTCAAGAACTAAATGG 

TGACATGGAATGGGTCGCTGATACCCTGGTCACCTTGCAAGATCAACTTAACTCCCTAGCAGCAGTAGTCCTT 

CAAAATCGAAGAGCTTTAGACTTGCTAACCGCGGAAAGCGGGGGAACCTTTTTATTTTTAGA 

GTTGTTATGTTAATCAATCCGGAATCATCACCGAGAAAGTTAAAGAAATTCAAGGTCGAATATAACGTAGAGC 

AAAGGAGCTGCAAAACACTGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCTGGATTCTCCCCTTCTT^G 

CCTCTAGCAGCTATAATATTGTTACTCCTCT^ 

CCAGAATCG AAG CAGTAAAACTACAAAT CGTTCTT CAAATGGAGC C C CAG ATG CAGTC CATGAGTAAAATCTA 
CCACGGACCCCTGGACCGGCCTGCTAGCCCATGCTCTGATGTTAATGACATCAAAGGCACCCCTC 
ATCTCAACTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGTGGTTGTTGGCCAACC 
CAACAGCAGTTGGGTTTTCCTGTTGAGAGGGGGGACTGAGAGACAGGAATAA 

AGAATCCCTAAGACTAGCTGGGAAGGTGACCGCTTCCACCTTTAAACACCGGGCTTGCAACTTAGCTCACGCC 
CAACCAATCAGATACTAAAGAGAGCTCACTAAAATGCTAATTAGGCAAAAACAGGAGATAAAC^^ 

TCATCTGTTG 



C2) INFORMATIONS POUR LA SEQ ID NO: 5: HE3 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 17 99 paires d bases 
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(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 5: 

GGGATTCTTAGTCGGCCTAGGAAATCCAGCTAATCCTGTCTCTCAGTCCCCCCACTCAACAGGAAAACCCAAG 
TGCTGTTGGGGAGGTTGGCTGACGACCAGTCTAACTGCTTCCTGCGGAATTGGGGCATAGTAGGGGTTGTGCA 
GTTGAGATTTCCTCGGGAGGGGTGCGTTCGATATCATTACAATTGGAGCATGGGCTAGTAGGCCGGTCCAGGG 
GTCCACGGTAGATCTTAGTCATGGACTTCATCTGGGGTTCCATTTGAAGAACGATTTGTAGCTTTACAACTTT 
GATTCTGGAAGAGACAAACTTAACAAGGAGGTTAAAGATACAGGGTCCAAAGAGGAGTATCAATATTAGAGCT 
GCTAGAGATCCTAAGAAGGGGAGAATCCAGGGCATCCATTGGCTGAGGAGGCCCCAGGGTCTGGTGTTTTTGA 
AGCTCCTCTCTTCTACGTTGTATTCAATCTCGAATTTCTTCAACTTTCTCTGTGACAATTCAGGATTGATTAA 
CATAATAACAACATTCTTCCGCTAAAATAACATAATAACAACATTCTTCCCCTAAAAATAAACAGCTTCCCCC 
TCTTTCAGAGGTTAGCAAGTCTAAAGCTCTTCAATTTTGAAGGACTACTGATGCTAGGAAGTTAAGTTGATCT 
TGCAAGGTGACCAGGGAGTCGGCAACCCATTCCATGTCACCATTGAGTTCTTGAGATAGTTTGTAGTAGAACT 
GAGTAGAGGTTGTGGTACCGCCAATGCCAGAACCTAGTCCACCTAGCACTCCTGCTCCGATAACAAAAGGAAG 
AATGAGTACTCTTTTGTTGTGGGGCTTAGGTACAACATAATTGTATAAATCTTGTTCAGTGTAAATGGTCATG 
GGGGCACTAAGAATGAGAGGAAGCACATAGATTCTGAAGAGCCATTCAAACAACGATAGGCTAAGGTACCACA 
GACAAAAAATATTCCTGAGGGTAGGCAGACTATTCGTGTGGGAGGAGTTACCCACCTGATGCATTGGGAGTTG 
GTTGTGTCTAC^GTATTGCTAAATTTTACACAGGTGAGGTTTGAGGTATGGGTTATTTCCAGATTGGAAACAA 
GAGGTCCTACTAAAACGGAAGTGGTGTTTATTTCTGTGCTGTAGTTGTTCCATTGTTCAGGTACAGGGATTGA 
AATGCATGGCCTGAAATACAGGGGGAGGCACAACCAACAGTTAGTAGGGTTTTGGACCGAGACCTCATGGAGC 
CCAGTGAGGGTGGTATTAAATAGGCTTACCAGGCAAGTATGGGTATGGAGGGTTTCATGTAGTTTTAAGAGAT 
CTAGTCCTTTGTAGGGGCTAGGGGTGCTATGTACCCGGGTCAGTTGGGAGGTTACTTCCTTTACATGTTTTTC 
TCTTGCCTGATCTTGAACTCCACCCCCCTCAGACATACCAGTATGGGTGAAGTAAGTCCGACAGACAGTGGCT 
CCAAGTCTTCCAGGACAACTAGGATTAATCATTTTCCCTGTCCAATAATGAGTATTTGCATGCATGCAAAGAG 
TGGCAGAGTTATAGCAGTTGTGGGGCATATGGGTGTGGGCAGTGAAGGTGGAGTTTCCTTTAGGTAAACTCCT 
ATTTGATGGGGCATCAATATTTCTGGGAAGCCGCATTCTTCATAGAAACTCTTGGTAAGGGGAGCTGCTGGTT 
GTACAGCAGCATGGAGGGGGTGCAGTGAGAGTGAAAGGGGGTAAGAGAACAGTAAAGAGAAAAATATGATAAG 
GGAGGGCCATGGGGATTTAGGATTTTAGTTACTTTCCTCACGGTTGT 

(2) INFORMATIONS POUR LA SEQ ID NO: 6: HG3 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1489 paires de bases 
<B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 6: 
TGGTGCTTGC CCCGGGCACT CTCAGTCCTG CTGCTGGATC ATCTGGTTAG TGGCTTCTGA 60 
CTCAGAGGAC CTACGTCCCC TGGGGCAGTG GGCCTTACAG TGATTCCCTT GACACGAGGT 120 
GCATGGACGA GGGGGCGGCT TATTTCTATT TGGACAATCT TTTTTAAAGT GTCCTTGTAG 
ACCGCACTGG AAGCAAACCC TATTAGGCAT TTGATTTGCC TAGCTTTTCC CTTTTCCAGT 
GCCTCCAAAG TCCGCTTGCC TGAGGGCCAT GACTAAAGCG GTGGCCTTTT TTTTATCCCA 
TTTGTCCCAT TCTGCCTGCT CATCCTGATC TCTATTATAA AAAACTGAGG TTGCCAAGTT 360 
CAATAGGGTT TCTAAGTTTT GTTCCGGGCC TAAGGCAGAC TTTTGAAGTT TTTTCCTAAT 420 



180 
240 
300 
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GTCTGTAGCT GACTGAGTGA TAAACTTATC CTTTAAGATT AGTTGGCCTT CAGTAGAGTC 480 

AGTT GACAGA GAGAGGTATG CTTCCTCAAT GCCTCCGTTA GTCACTCCAG AAAGGCGGTA 540 

GGATTTTCTT CCTTTCCCTG TGTTATAGTG GACATCATTG AATAACTCAC AGGCTTCTTT 600 

CTAGTTTTCC TTAGTCCTTC TAGCACGCAA GTTAGCAAAT GTCTGCGGCA CCAATCTCCA 660 

TGTTCTGATT CTGTGTCCCA GTGAGGGTCT ACACTGGGAA CTGCCTGCTG GCCTGTGGGG 720 

AATCGTTCTC TTTCCTCTGT TGTCGACCTA TCATTGACCT GACTGAGATA CCAGAGATCG 780 

CCAAACTCTC AGGCTGCAGT TACGGCGACA CTTCTGTCAT TTGGGGTTAG TGTCTGATTT 840 

AGCAGTAACA TTATATCTCT CCATATCAGA TCAAAGGATT GTCCTAAACC TTGTAAAACA 900 

TCAATATAGC CATTAGGGTT ATCTGAGAAT TTACCTAGGT CTATTTTAAT TTAAAGTCTG 960 

GGAGAGAAAA AGGCACATGC ACTCTGGCTG GGCCGAATTC TCTTCCTCCC ACTGCGTCTG 1020 

AGAGAGAAAA AGGTACGTGC ACTCTGGCTG GGCCGAATTC TCCTCCCACC GCTTGGAGGG 1080 

GGCATAATCG GGGAATATTG GCATTCTTTG GTTAGTTGTT TACCCCTTTG TCTATCTCCT 114 0 

TTTGGACCGT TTGGGTTGAA GGGGGGTCCT TATTATTTGG GGAAGGAGTC TGGGGGATGC 1200 

TGGGGTAGGG AGGTAGACTC TGAGGGCTTC CTGTAGGGCA TAAATCACAC TTTTTACATA 1260 

ATTGCGAGTT GTCTCTTAAT GAAAAGAAAG TTTGTACGTA TGACACTTCA CACCATTTGC 1320 

CTTCTTTTCT ACAAAAGAGG TCTAGCTGTA AGATGGTGTT ATAATTTATG CTTCCCTCAG 1380 

GATGCCAGGT TTCTCCCCCT TAAAGAGTAT ATCGTTGCCA GGCGGTACTG CAGAAGAATA 1440 

TGTCTTTTTT TTCTTAGCAT CTGAGAGTCA AATTGGTCCC AATTCTCCA 1489 

(2) INFORMATIONS POUR LA SEQ ID NO: 7: HE4 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1216 paires de bases 
IB) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 7: 

TAAAGATACA GGGATTGAAA TGTATGGCCT GAAGTGCAGG GTCATATAGG TGTGGGTGGT 60 

GAAAATGGGG TTT CCTTTAG AAAAACTCCT ATACGATGGG T CATCAATAT TTCCAGGAAG 120 

CCGCATTCTC CATAGAAGCT CTTGGTAATG GGAGCTACTG GTAGTACAGT GGCATGGAGG 180 

GGGTGCAGTG AGAGTGAAAG AGGGTAAAAG AACAGTAAAG AGAAAAATAT GATAAGGGAG 240 

GGGTTCAGTG AGAGTGAAAG GGGGTAAGAG AACAGTAAAG AAAAAAATAT GACAAGGAGG 300 

GCCATGAGGA TCTACGATTC TAGTTACTTT CCTCACGGTT GTCGCTTGAA GAGCAGGTGC 360 

AGATCCTCTA GAGGTTCACA GGAATAGCTA GCGTTGTCTC CTGGATTTTC GGGTTCCTTT 420 

GGCAGTATAC AGAGTTTGAC TCGAGTGTGA TGTATTCAAG ACTCCACTCC AGCCACTTTA 480 

ACCGCAGTTG GGGTAGATAA AATGACTGGG TAGGGTCCTT CCCAGGATGT ATCTAAGGAT 540 

GGGGACTTAG AAGGAAGGGA CTTGACTAAT ACCATGTCAC CAGGGTGCAA TAATTACTTT 600 
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CCCTCTTCTC GGGAACAGGT TCCCTGTAAT GTTTTAAGAA CTTGTTGATA TTTGGCCAAG 
GAGGTGATGT CTGCAACTAA GCTGGCCATC TCTCGGTCAA GCACAAGGTC CTTGGTTAGG 
AAGGGCCATC CATACAGCAT TTTGTATGGG CTAAGTCCTG CTTTTTGGGG AGAGTTTTGG 
ATTCTTAGTA AGGCTGTAGG CAACAGAGCA GGCCATGCAA GGTGGGTTTC TTGGGTTAGC 
TTTTTTAAAT GTCGTTTGAG TGCTTCATTC ATTTTCTTGA CTTTTCCTGA GGATTGTGGC 
CTCCACGCGC AGTGTAAGTG ATATTGTATG CCTAATGCCT GGGATACTCC CTGGGTTACT 
GTAGCCTTGA AAACGGGGCC ATTGTCACTC TGTAAGCCTC GGGGAAGTCC GAATCTGGGA 
ATTATTTCAT GAATTAGTGC CTTTATTACA TCTTGGTCCT TTTCTGTCCT ACAAAGGAAG 
GCCTCTGCCC AACCAGTGAA AATATCTACC CAGACTAGTA GATACTGAAA TCCCTGAGAT 
TTGGGCATGT GGGTAAAATC TAGTTGCCAG TCTTCTCCTG AGTAATGGCC TGTTCTTTGT 
TCTCCTGAAG GAGCTT 

(2) INFORMATIONS POUR LA SEQ ID NO: 8: HE5 

(i) C ARACTER I S T I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 97 6 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 



(ii) TYPE DE MOLECULE: ADN (genomique) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 8: 
AGTGATAATG GAATACTTGA AAGTAATCCC CTCACTCCAG GAACTAGTGC TGAGCTGGCC 
AAAC T AAT AG CCCTCACTCG GG C ACT AGAA TTAGGAGAAG AGAAAAGGGT AAATATATAT 
ACAGACTATA AGTATGCTTA CCTAGTCCTT CATGCCGATG CAGCAATATG GAGAGAAAGG 
GAATTCCTAA CTT CCAAAGG AACACCTATC AAACATCAGG AAGCCATTAG GATATTATTA 
TTGGTGGTAC AGAAACCTAA AGAGGTGGCA GTCCTACACT GCTGGGGTCA TCAGAAAAAA 
AAGGAAAGGG AAATAGAAGG GAACT AC CAA GCAGATATTG AAGCCAAAAG AGCCGCAAGG 
CAGGACCCTC CATTAGAAAT GCTTATAGAA GGACCCCTAG TGTGGGGTAA CCCCCTCCAG 
GAAAGCAATC CCCAGTACTC AGCAGGAGAA ATAAAATGGA GAACCTCACG AGGACATACT 
TTCCTCCCCT CAGGATGGCT AGCCACCAAA GAAGGAAAAA TGCTTTTGCC TGCAGCTAAC 
CAATGGAAAT TACTTAAAAC CCTTCACCAA ACCTTTCACT TAGGATTGAT AGCACCCATC 
AGATGGCCAA ATTATTATTT ACTGGATCAG GCCTTTTCAA AACTATCAAG CAGGTAGTCA 
GGGCCTGTAA AGTGTGCCAA AGAAATAATC TCCTGCACTG CAAGCCATAC ATTTCAATCC 
CTGTATCTTT AACCTCCTTG TTAAGTTTGT CTCTTCCAGA ATCAAAGCTG TAAAACTACA 
AATGGTTCTT CAAATGGAGT CTCAGATGCA GTCCATGACT AAGATATACC GCAGCCCCCT 
GGAGGGGGCC TGCTAGCCCA TGCTCCAATG TTAATGACAT CGAAGGCACC CCTCCCGGGG 
AAATCTCAAC TGCACAACCC CTACTATGTC CCAATTCAGC AGGAAGCAGT TAAAGCGGTC 
ATCGGCCAAC CTCCCC 



660 
720 
780 
840 
900 
960 
1020 
1080 
1140 
1200 
1216 



60 
120 
180 
240 
300 
360 
420 
480 
540 
600 
660 
720 
780 
840 
900 
960 
976 
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(2) INFORMATIONS POUR LA SEQ ID NO: 9: HE6 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 942 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 9: 

AGAGGAGAAC AGCAGCATAA GCGGCTGGCA GAGGTAGGGA AAGACCAGCA AGAAGAAAAG 60 

AGAGAAAGAG AAAGAGAAAG TCAGAGAAAG AGACAGAGAG AGGAAGAGAC AAAGAGACAG 120 

AAAGTCAAAG AGGTAGTAGT CAGAAACAGA GACAAAAAAA AGGAGTCAGA AAGAGGGACA 180 

GACACAGAAA GTCAAAAAAA AAGTTAAGAA GAAAGGAAAA GACAAAGAAG AAGTCGAAGA 24 0 

GGAGAAAGAG AGAGATAGAA GTAGTAAAGA AAAAAACAGC ATAT CCCATT CCTTTAAAGC 300 

CAGGGTAAAT TTCTATCTAC CCAGCCAAGG CAT ATT CT AC TTATGTGGAT CTTCAACCCA 360 

TATCTGCCTC TCAGACAGTT TGCAAGAAAT AATGAAATCT ATCCTTACTT TACAATCCCA 420 

AATAGACTCT TTGGCAGCAG TGACTCTCCA AAACTG CAGA GGCCTAGACC TCCTCACTGC 4 80 

TGAAAAAGGA GGACACTACA CCTTCTTAGG GGAAGAATGT TGTTTTTACA CTAACCAGTC 540 

GGGGATAGTA TGAGATGCTG CCCGGAGTTT ACAGGAAAAG GCTTCTGAAA TCAGACAACG 600 

CCTTTCAAAT TCTTATACCA ACTTCTGGAG TTAGGCAACA TGGCTTCTCC CCTTTCTAGG 660 

TCCTGTGGCA GCCATCTTGC TGTTACTCGC CTTTGGGCCC TGTATTTTTA ACCTTCTTGT 720 

CAAATTTGTT TCCTCTAGAA TCGAGGCCAT CAAGCTACAG ATGGTCTTAC AAATGGAACC 7 80 

CCAAAAGAGT TCAACTAACA ACTTCTACCG AGGACCCCTG GATCAACCCA CTGGCACTTC 840 

CCCTGGCCTA GAGAGTTCCC CTCTGAAGGA CACCGCAACT GCAGGGCCCT TCTTTGCCCC 900 

ATCCAGCAGG AGTAGCTAGA GTGGTCATCG GCCAAATTGC CA 942 
C2) INFORMATIONS POUR LA SEQ ID NO: 10: HG6 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1375 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

<ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 10: 

CCCCAATATT CTCTTTCTGA TGGGGAAAAA TGGCCACCTG AGGGAAGCAC AAATTACAAT 60 

ACTATCCTGC AGCTTGATCT TTTCTGTAAG AGGGAAGGCA AATGGAGTGA AATACCTTAT 120 

GTCCAAGCTT TCTTTTCATT GAGGGAGAAT ACACAACTAT GCAAAGCTTG CAATTTACAT 180 

CCCACAGGAG GACCCCTCAG CTTACCCCCA TATCCTAGCC TCCCTATAGC TTCCCTTCCT 240 

ATTGATGATA CTCCTCCTCT AATCTCCCCT GCCCAGAAGG AAATAAGCAA AGAAATCTCC 300 

AAAGGTCCAC AAAAACCCCC GGGCTATCGG TTATGTCCCC TTCAAGCTGT AGGGGGAGGG 360 
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GAATTTGGCC CAACCCGGGT GCATGTCCCC TTCTCCCTCT 
CAGACCTGGG GAAGTTTTCA GATGATCCTG ATAGGTACAT 
GGCAAACCTT TGACCTCACT TGGAGAGACG TCATGCTACT 
TTAATGAAAA GAATGCGGCT TTAGCTGCAG CCTGAGAGTT 
GTCAAGTAAA TGAAAGAATG ACAGCCGAAG AAAGGGACAA 
CCATCCCCAG TATGGATCCC CACTGGGACT TTGACTCAGA 
AACATCTGTT GATCTGTGTT CTGGAAGGAC TAAGGAGAAT 
ATTCAATGAT AT CCACCAT A ACCCAGGGAA AGGAAGAAAA 
GGCTACAAGA GGCCTTAAGA AAATATACTC CCCTGTCACC 
TGATTCTAAA AGATAAGTTT ATTACCCAAT CAGCCACAGA 
AGCAAGCCCT GAGCCCTGAA CAAAAT CT AG AGACATTATT 
TCTATAATAG GGACCAAGAG GAACAGGCCC AAAAGGAAAA 
CAGCCTTAGT CATGGCCCTC AGACAAACAA ACCTTGGTGG 
GAGCAGGCCA ATCACCTGGT ACGGCTTGTT ATCAGTGCGG 
AAGATTGTCC AATAAGAAAC AAGCTGCCCC CTCATCCGTG 
ACTGGAAGGT GCACTGCCCC AGAGGATGAA GGTTCCCTGG 
TGATCCAACA ACAGGACTGA GGGTGCCCGG GGCAAGCACC 
(2) INFORMATIONS POUR LA SEQ ID NO: 11: HE7 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 944 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: single 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE : SEQ ID 
ACCTAGGAGG AACTGTCTTC AGGACAGGAC TATAGATGCT 
AAAAAGACAC AATGGGTATT CAGTAAGTGA TAAGGAAACT 
AAAATTGCCT AATAATTGGT CTGCTCAAAT GTGCGAGCTG 
AAAAGTATTA CAGAATCAGG AAGAAGCCAT CTATACCAAT 
ACGAGAACTT ATTAATAGCA AAGAATAATT GAAATCCCAA 
AAGCACAGTT TGCTAAAAGT TAACTGTGTA ACATGTATTA 
AAATGATTTC TCAGACAGTT TGCAAGAAAC AATGAAACCT 
AATAGACTCT TTGGCAGCAG TGACTCTCCA AAACCACCAA 
TGAGAAAGGA GGACTCTGCA CCTTCTTAGG GGAAGATTGT 
AGGGATAGTG TGAGATGCCA CCCAGCGTTT ACAGGAAAAG 
TGCTTTTCAA ACCTTATAGC AACCTCTGGA GTTCGGCGAC 



CTGATTTAAA GCAGAT CAGG 
AGATGTCCTA CAGGGTCTAG 
GTTAGATCAA ACCCTGGCCT 
TGGAGATACC TGGTATCCTA 
CTTCCCTACT GGTCAGCAAG 
TCATGGGGAC TGGAGTCGTA 
TGGGAAAAAG CCCATGAATT 
TCCTTCTGCC TTCCTCGAGC 
CGAATCACTC GAGGGTCAAT 
TATCAGGAGA AAGCTCCAAA 
AAACCTGGCA ACCTTGGTGT 
GCGAGATCAG AGAAAGGCCG 
TTCAGAGAGG TCAGAAAATG 
TTTACTAGGA CACTTTAAAA 
TCCACTATGC CGAGGCAATC 
GTTAGAAGCC CCCAACCAGA 
AGCTCATGTC ATCAC 



NO: 11: 

TCCTCCCAGG 

CTTGTAGAAG 

TTTGCACTCA 

TCTAAGTTAA 

ACTTACAAGG 

TCCTACTACC 

ATCCTTACTC 

GGCCTAGACC 

TGTTTTTACA 

GCTTCTGAAA 

TGGCTTTTCC 



CGATTAAGGG 
CAGAGTTAGG 
GCCAAACCTT 
TATGGACTGA 
TTTTCAACAA 
ACAAACT CTC 
TACAATCCCA 
TCCTCACTGC 
CTAACCAGTC 
TCAGACACAA 
CCTTTCTAGG 



420 
480 
540 
600 
660 
720 
780 
840 
900 
960 
1020 
1080 
1140 
1200 
1260 
1320 
1375 



60 
120 
180 
240 
300 
360 
420 
480 
540 
600 
660 
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TCCTGTGACA GCCATCTTGC TATTACTCGC CTTCGGGCCC TGTATTTTTA ACCTCCTCGT 720 

CAAATTTGTT TCCTCTAGGA TCGAGGCCAT CAAGCTACAG ATGGTCTTAC AAATGGAACC 780 

CCAAATGAGC T CG ACT AACA ACTTCTACTG AGGACCCCTG GACCGACCCA CTGGCCCTTT 840 

AACTGGCTTA AAGAGTTTCC CTCTGGAGGA CACTACAACT GCAGGGCCCC TTCTTTGCCC 900 

CATCCACAGG AAGTTAGCTA GAGCAGTCAT CACCCAATTC CCAA 94 4 
(2) INFORMATIONS POUR LA SEQ ID NO: 12: HE8 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 963 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 12: 

TACAGGAACC CCATAATACG TCCTTGGCAA ATTCTATTCA GCTCCAACTG CTAGGAGTGG 60 

CCCATTTGTC CTGAACCCTC AAATCATGGG AATGAGAAAT GAATTTAGAC TGACCACAGC 120 

CCTTATGAGT TTTCAGCTAC AGGGGTGTAT AGAACCCTGA TAAGGAGTTT TCTTTGTGTG 180 

TGGAAGATCC TTCTATATTT GCCTCCCCAC CAACTGGACA GGAACTTGTA CTTTAGCCTA 240 

CATAGTACCT CCTGTGACTT ATCCTTTTCA GAAGAGGCAG TAGCTGTGCC CATTCATGCT 300 

AAGCTTCAGC CGAGAGCAAT CTCACTACTT CCTCTATTGG CTGGTTTAGG ATTTACTACC 360 

ACCTAGGAAG TGGACTCACA GCCTAGATGA AATCTCTCTC C AACTT ACT C AAATCCAGGA 420 

CCAAATAGAC TCATTAGCAG CTGTGGTTCT CCGAACCAGT GAGCACTAGA TCTCCAATCT 480 

CCTCACTGCC GAAAGGGGAG GAACATGCCT TTTTCTGAAC AAGGAATGTT GTTTTTATGT 540 

CAATAAATCA GGCATAGTGA GAGATGGAAT TAAATGACTT CAGGATAGAG CTAGCAGACT 600 

ACATGGTGGG ACAACCGAAA CTACCTCAGG GTTCTCACAG CCTGTTCTCC ACTGGCTTCT 660 

TCCATTTTTA GGTCCCTTCC TTATGATTAT TCTAGGAGTA ACCTTTGGCC CATGTCTTTT 720 

* CAGTTCCTTC ATCCTTTCGT TTCTTCCTGA ATAGAATCAA TGAAACTAGA AATGTTACTG 780 

CAGATGGAAC CTCAGATGAC TTCAACCAGC ACCTATTATC AAGGACCCCT AAACCAGCCT 84 0 

GCCGGCCCAT ACCCGGACGT TGACACCCAA ACCACCTCTC ACGAGGAAAC CTCAGCTACA 900 

GAACCCCTTC TATGCCCCTA TTCAGCAGGA AGCAATTAGA GTGGTCATCC TCCCACACCC 960 
CAA 

(2) INFORMATIONS POUR LA SEQ ID NO: 13: HG8 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1362 paires de bases 

(B) TYPE: nucleotide 
<C) NOMBRE DE BRINS: simple 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 



963 
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(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 13: 



CCACAAIAJl L. 


CTCTTCCAGG 


AGGAGAACGA 


TGGCCACCTG 


AGGGAAGTAT ACACTATAAT 


60 




AACTAGATCT 


GTTTTGTAAA 


CAAGAAGGCA AGTGGATTTA GGTACCATAT 


120 


GTTCAGACCT 


TTTTCTCATT 


AAGGGATGAT 


AACCCACGAT 


TGTGTAAGAC ATGTAACCTG 


180 


CAC CCCAC ACa 


GGAGTCCTCA AATTCTACCC 


CCATACCCAG 


TCCTCCCCAC GGCTCCTCCT 


240 


ACTAATGCCA 


ZvAPCCTCTCT 


GGCTTCTACA 


GCCCAAAAGG 


GAACAAATAA AAGAGCCTTC 


300 


AGAGAGC CAA 


fZAGAC CCCAC 


TGGCCCCTGG 


CTATGTCCTC 


TTCAGGCTGT AGGAGGGGAA 


360 


TTTGGCCCAA 


CCCGAGTACA 


TGTTCCCTTT 


TCTCTCTCTG 


ATCTAAAGCA AATTAAGGCA 


420 


GACTTGUAj. o 


AAAGTTCTCA 


GATGACCCCA 


ATAGATACGT 


AGATGGCCTG CTGGGTCTGG 


480 


GACAATU ill 


TGACCTTTCC 


TGGAGAGAGA 


TCATGTTATT 


GCTTGATCAG ACCTAACCTC 


540 


T AAT GAGAAw 


AATGCTGCTT 


TAACAGGAGC 


CCGAGAGTTT 


GGGGATACCT GGTACCTCAG 


600 


TTAAGTAAGT 


GATAGAATGA 


CATCAGAAGA 


GAGCAGTTTC 


CTACTGGCCA GCAAGCAGTC 


660 


CCCAGTATGG 


ATCCCCACTG 


GGACCCTGAC 


TCGGATCATG 


GGGACTGGAG TCACAAACAT 


720 


TTACTGACCT 


GTATCCTAGA 


AGGGTTAAGG AGAACTAGGA AAAAGCCCAT GAACTATTCA 


780 


ATGATGTCTA 


CTATAACCCA 


AGGGAAGGAA 


GAAAACCCTA 


TTGCCTTCCT CAAAAGGCTG 


840 


AGGGAGGCTT 


TGAGAAAATA 


TACTCCCCTG 


TCACCAGATT 


CCCTCGAAGG CCAGTTAATT 


900 


TTAAAGGACA AATTTATTAC 


TCAGTCAGCT 


GCAGACATTA 


GGAAAAAGCT CCAAAAGTTA 


960 


GCCTTGGGCC 


GAG CAAAATT 


TGGAGGCATC 


ATTAAACCTG 


GCAACCTCAG TGTTCTATCA 


1020 


TAGGGACCAA 


GAGGAACAGG 


CCGAAAAGGA 


AAAG CAGG AT 


AAGAGAAAGG CTGCAGATTT 


1080 


AGTCATGCCC 


TCAGACAAAC 


CTTGGCGGTT 


CAAAGAGGAG 


AAAAAATGGA GCAGGCCAAT 


1140 


CACCCAGCAG 


GGCTTATTAT 


CAGTGCAGTT 


TACAAGGACA 


CTTTAAACAA GATTGTCCAA 


1200 


AGAGAAATAA 


GCCGCCCTCT 


CACCCATGTC 


CACTATGCCA AGGTGATCAC TGGAAGGCAC 


1260 


ACTGTCCCAG 


AGGACAAAGG 


TTCTCTGGGC 


CAGAAGTCCC 


CAACCAGATG ATCCAGCAAC 


1320 


AGGATGGAGG 


GTGCCCGGGG 


CAAGCACCAG 


CTCGTGTTGT 


CA 


1362 


(2) INFORMATIONS POUR 


LA SEQ ID 


NO: 14: HE 9 







(X) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 945 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BR INS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (g6nomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 14: 
TTGCAGATCA AT CTCAGACT GCTGTGCTAG CAATGAGTGA GGCTTCGTGG GCATGGGACC 
CTCTGAGCCA GGCATGGGAT ATAATGTCCT TGTGTGCCAT TTGCTAAGAC TGTTGGAATA 
GCACAGTATT AGGGTGGGAG TGGCCCGATT TTCCAGGTGC TGTCTGTCAC CGCTTCCCTT 
GGCTAGGAAA GAGAATTCCC TGACCCCTTG TTCTTCCCAG GTAAGGCAGT GCCTCACCCT 
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GCTTCAGCTC ACACTCAGGT GACTGCACCC ACTGTCCTGC CCCCACTGTC GGACAAGCCC 300 

CAGTGAGATG AACCTGGTAC CTCAGTTGGA AATGCAGAAA TCACCTGTCT TCTGCGTCAC 360 

TCACACTGGG AGCTGTAGAC TGGAGCTGTT CCTATTTGGC CATCTTGGAA CCATCTCCCA 420 

AATAGACTCT TTGGCAGCAG TGACTCTCCA AAACCACCAA GGCCTAGACC TCCTCATTGC 4 80 

TGAGAAAGGA GGACTCTGCA CCTTCTTAGG GGAGGAGTGT TGTTTTTATA CTGACCAGTC 540 

AGGGATGGTA CGAGATGCCA CCCGATGTTT ACAGGAAAAG GCTTCTGAAA TCACACAACA 600 

CCTTTCAAAC TCTTATACCA ACCTCTGGAG TTGGGCAACA TGGCTTCTCC CCTTTCTCGG 660 

TCCCATTGCA GCCATCTTGC TATTACTCGC CTTCAGGCTG TGTATTTTTA ACCTCCTTGT 720 

CAAATTTGTT TCCTCTAGAA TTGAGGCCGT CAAGCTACAG ATGGTCTTAC AAATGGGACC 780 

CCAAATGAGC TCAACTAACA ACTTCTGCCA AGGACCCCTG GACCAACCTG CTGGCCCTTT 840 

CACTGGCCTT AAGAGTTCCC CTCTGGAGGG CACTACAACT GCAGGGCCCC TTCTTTGCCC 900 

CTATCCAGCA GGAAGTAGCT AGAGCAGTCA TCACCCAATT CCCAA 94 5 
(2) INFORMATIONS POUR LA SEQ ID NO: 15: HE10 

(i) CARACTERI ST I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 939 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE : SEQ ID NO: 15: 

AGAGCTACCT T GGCAAGT AC TCTAGGAGTA TGGGAAAATG AAAACAACAA ACTCACACAC 60 

CATTTTAACA TACACAATCA GGTCTGCCCA CCCAGCAAGG TATATTCTTT GTATGTGGAA 120 

CATCGACCTA TATCTGCCTC CCCACTAACT AGACAGCCAC CTGAATCTTA GTCTTTCTAA 180 

GTCCCAACAG TAACATTGCC CCAGGAAATC AGACCATATC AGTATCCCTC AAAG CTCAAG 24 0 

TCTGTCAGTG CAGAGCCATA CAACTAATAC CCCTACTTAT AGGGTAAGGA ATGGCTACTG 300 

CTACAGGAAC CAGAATAGCT AGTTTGTTTA CTTCATTATC CTACTACCAC ACACTCTCAA 360 

ATGATTTCTC AGACAGTTTG CAAGAAATAA CGAAATCTAT CCTTACTCTA CAATCCCAAA 420 

TAGACTCCTT GGCAGCAGTG ACCCTCCAAA ACGGCTGAGG CCTAGACCTC CTCACTGCCA 480 

AGAAAGGAGG ACTCTGCATT TTCTTAGGGG AAGAGTGTTT TTACACTAAC CAGTCAGGGA 54 0 

CAGTATGAGA TGCCACTCGG AGTTTACAGG AAAAGGCTTC TGAAGTCAGA CAATGCCTTT 600 

CAAACTCTAT ACCAAACTCT GGAGTTGGGC AACATGGCTT CTCCCCTTTC TAGGTCCCGT 660 

GACAGCCATC TTGCTATTAT TTGCCTTTGA GCCCTGTATT TTTAATCTCC TTTTCAAATT 720 

TGTTTCCTCT GGAT CGAGGC CATCGAGCTA CAGATGGTCT TCACAAATGG AACCCCAAAT 780 

GAGCTCAACT AACAACTTCT ACTGAGGACC CCTGGACTAA CCTGCTGACC CTTTCACTGG 84 0 

CCTGAAGAAT TCCCCTCTGG AGGACACTAC AACTGCAGGG CTCCTTCTTT GCCCCTATCC 900 

AGCAGGAAGT AGCTAGAGCT GTCATTGCCT AATTCCTAA 939 
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(2) INFORMATIONS POUR LA SEQ ID NO: 16: HEll 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 97 9 paires de bas s 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

<xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 16: 
AGTGATAATG GAATACTTGA AAGTAATCCC CTCACTCCCC AGGAACTAGT GCTCAGCTGG 
CAGAACTAAT AGCCCTCACT CGGGTACTAG AATCAGGAGA AGGAAAAAGG GTAAATATAT 
ATACAGACTC TAAGTGTGCT TACCTAGTCC TCCATGCCCA TGCAGCAATA TGGAGAGAAA 
GGGAATTCCT AACTTCCGAG GGAACACCTA TCAAACATCA GGAAGCCATT AGGAAATTAT 
TATTGGCTGT ACAGAAACCT AAAGAGGTGG CAGTTTTACA CTGCCGGGGT CATCAGAAAG 
GAAAGGAAAG GGAAATACAA GGGAGCCACC AAGTTGATAT TGAAGTCAAA AGAGCCACAA 
GGCTGGACCC TCCATTAGAA ATGCTTATAG GAGGACCCCT AGTATGGGGT AATCCCCTCC 
GGGAAGCCAA GCCCCAGTAC TCAGCAGGAG AAATAGAATA GGGAACTTCA TGAGGACATA 
CTTCCCTCCC CTCCAGATGG CTAGCCACCA ATAAAGGAAA AATACTTTTG CCTGCAGCTA 
ACCAATAGAA ATTACTTAAA ACCCTTCATC AAACCTTCCA CTTAGGCATT GATAGCACCC 
ATGAGATGGC CAAATTATTA TTTACTGGAC CAGGCCTTTT CAAAACTATC AAGCAGATAG 
TCAGGGCCTG TAAAGTCTGC CAAAGAAATA ATCCCCTGCA CTGCAGGCCA TACATTTCAA 
TCCCTGTATC TTTAACCTCC TTCTTAAATT TGTCTCTTCC AGAATCAAAG CTGTAAAATT 
ACAAATAGTT CTTCAAATGG AGCCACAGAT GCAGTCCATG ACTAAGATCC ACCACAGACC 
CCTGGACCAG CCTGCTAGCC CATGCTCCAA TGTTAATGAC ATCGAAGGCA CCCCCTCCTG 
AGGAAATCTC AACTGCACAA CCCCTACTAC GCCCCAATTC AGCAGAAAGC AGTTAGAGTG 
GTCATCAGCC AACCTCCCC 
(2) INFORMATIONS POujR LA SEQ ID NO: 17: HG11 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 177 4 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(iij TYPE DE MOLECULE: ADN (genomique) 

<xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 17: 
CATGCTGGTAAAGKIACCGCTAGAATCGAGCAG 

GTGCAGGACTGCTACACTGGTAAGCATAACTAATCCGATA 

AAGGAATAAGCATTAGGACTATAGAGGACACTCTAGGACTAATGCTCATCGGAAAATGACTAGGGGTACTGGC 
ATCCCTATGTTCTTTTTTCAGATGGGAAATGTTCCCCCCAAGGCAGAAATGCCCCTAAGATGTATTCTGGAGA 

AATGGGAC CAATCTGAC CATCAGACACT AAGAAAGAAATG ACTTAT ATT CTTCTGCAGTAC CAC CTGGC CACA 
ATATCTTCTTCAAGGGGCAG AAACCTGGCCTC CTG AGGG AAGTATAAATTATAACAC CATCTTACAGCT AGAC 



60 
120 
180 
240 
300 
360 
420 
480 
540 
600 
660 
720 
780 
840 
900 
960 

979 
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CTCTTTTGTAGAAAAGAAGGCAAATGG 

CCCAATTATGTAAAAAGTGTGATTTATGCCCTACAGGT^AGCCCTCAGAGTCTACCTCCCGACCCCAGCAAGAC 
CCCAACTCCTTCTCCAACTAATAAGGACCCCCCTTCAACCCAAATGGTCCAAAAGGAGATAGACAAAGGGGTA 
AACAATGAACCAAAGAGTGCCAATATTACACGATTATACTCGCTCCAAGCAGTGGGAGGAGAATTTGGCCCAG 

CCAGCGTGCATGTACCTTTTTCTCTCTCAGATTT 

C C CTGATGGCT AT ATTGATGTTTTACAAGGGTTAGGACAATC CTTTG AT CTG ACATGG AGAGAT ATAATGTTA 
CTGCTAAATCAGACACTAACCCCAAATGAAAAAAGTGCTGCCATAACAGCAGCCTGA 

GGTATCTCAGTCAGGTCAATGATAGGATGACAACAGATGAAAGAGAATGATTCCCCACAGGCCAGCAGGCAGT 
TCCCAGTGTAGACCCTCATTAGGACACAGAATCAGAACTTGGAGATTGGTGCCACAGACATTTGCTAACTTGC 
GTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGCCCATGAATTATTCAATGATGTCCCCTATAACACAGGGAA 
AGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAAGGATTGAGGAAGCATACCTCCCTGTCACCTGA 
CTCTATTAAAGGCCAACTAATCTTAAAGGATAAGTTTATCACTCAGTCAGCTG 

CAAAAGTATGCCTTAGGCCCAGAGCAAAACTTAGAAACCCTACTGAACTTGGCAACCTCAGTTTTTTATAATA 
GAGATCACK3AAGAGCAGGGGAATGGGAGAAATGGGATAAAAAAAAAA 

CCCTCAGGCAAATGGACTTTGGAGGCTCCAGAAAAGGGAAAAGCTGAGCAAATTGAATGCCTAACAGGGCTTG 
CTTCTAGTGTGGTCTACAAGGACACTTTATUU^GATTGTC 

CCCTTATGTCAAGGGAATCACTGGAAGGCCCACTGCCCCAGGAGATGAAGGTCCTCTGAGTCAGAAGCCACT 
AC CAG AT AAT CCAGCAGCAGGACTGAGGATGC CCAGGGCAAG CG C CAGC C CATGC CATCAC C CTCACAGAGC C 
TTGGGTATGCTTGACCATTGA 

(2) INFORMATIONS POUR LA SEQ ID NO: 18: HE12 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 938 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 
<D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 18: 



TGTAGGAAGA 


ACTCCCTTCA 


GGACAGGACA 


ATAGATGGTT 


CCTCCCAGGT 


GATTAAGGAA 


60 


AAAAGACACA 


GTATTCAGTA AGTGATAAGG 


AAACTCTTGT 


AGAAGCAGAG 


TTAGAAAAAT 


120 


TGCCTAATAA 


TTGGTCTGCT 


CAAATGTGTG 


AGTTGTTTGC 


ACTCAGCCAA 


ATCTTAAAGT 


180 


ACTTACAGAA 


TCAGGAAGCA 


GCCATCTATA 


CCAATTCTAA 


GTTAATATGG 


ACTAAACGAG 


240 


GTTTTATTAG 


TAGCAAAGAA AAATTAAAAT 


CCCAAACTTA 


CAAGGTTTTC 


AACTAAAGTT 


300 


TGCCAAAAGT 


TAACAGTGTA 


ACATGTATTA 


TCCTACTATC 


ACACACTCTC 


AAAGGATTTC 


360 


TCAGACAGTT 


TGCAAGAAAT 


AACGTAATCT 


ATCCTTACTC 


TACAGTCCCA AATAGACTCT 


420 


TTGGTAGCAG 


TGACTCTCCA 


AAACTGCCGA 


GGTCTAGACC 


TCCTCAATGC 


TGAGAAAGGA 


480 


GAACTCTGCA 


CCTTCTTAGG 


GGAAGAGTGC 


TGTTTTTACA CTAACCAGTC AGGGATAGTA 


540 


TGAGATACTG 


CCTGACGTTT 


ACAGGAAAAG 


GCTTCTGAAA 


TCAGACAACG 


CCTTTCAAGC 


600 


TCTTATACCA 


ACCTCTGGAG 


TTGGGCAACA 


TGGCTTCTCC 


CCTTGCTAGG 


TCCTGTGGCA 


660 


GCCATCTTGC 


TATTACTTGC 


CTTCGGGCCC TGTATTTTTA ACCTCCTTGT 


CAAATTTGTT 


720 


TCCTCTAGGA 


TCAAGGCCAT 


CAAGCTACAG 


ATGGTCTTAC 


AAATGGAACC 


CCAAATGAGC 


780 


TCAACTAACA 


ACTTCTACTG 


AGGACACCTG 


GACTGACCCA 


CTGGCCCTTT 


CACTGGCCTA 


840 


AAGAGTTCCC 


TTCTGGAGGA 


CACTACAACT 


GCAGGGCCCC 


GTCTTCACCC 


CTATCCAGCA 


900 


GGAAGTAGCT 


AGATCAGTCA 


TTGCCCAATT 


CCCAACAG 






938 
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(2) INFORMATIONS POUR LA SEQ ID NO: 19: HG12 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1308 paires de bases 

(B) TYPE: nucleotide 

(C) N OMB RE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genoraique) 

(xi) DESCRIPTION DE LA SEQUENCE : SEQ ID NO: 19: 
GATGCTTGCC CCAGGCACCC TCAGTCCTGT TGTTGGATCA TCTGGTCGGG GGCTTCTGGC 60 
CCAAAGAACC TTTGTCCTCT GAGGCAGTGC ACCTTCCAGT GATTGCCTCA GCATTGTGGA 120 
CATGGGCAAG GGGGCAGCTT GTTTCTCACT GGACAATCTT TTTTAAGGTG TCCTTCCAAA 180 
CCACACTGGT AACAAGCCCT ACCAGGTGAT TGGCCTGCTC TATTTTCTGT CCTCTCTGAA 240 
CCACCAAGGT TTGTCTGTCT GAGGGTCATG ACTAAGGCTG TGGCCTTTCT CTGATCTTGC 300 
TTTTCCTTTT TGGCCTGTTC CTCTTGGTAC CTATTATAGA ACACTGAGGT TGCCAGGTTT 360 
AACAATGGCT CCAGATTTTG TTCAGGGCAC AGGGCTCATT TTGGAGCTTT CTCCTGATAT 
CTGCAGCTGA TTGGGTAATA AACTTATCTT TTAGGATCAA TTGACTCTCA AGAGAGT TGG 
GTGACAGGGG AGTATATTTC CTTGAGGCCT CCCATAGCCG CTCTAGGAAG GCAGAAGGAT 
TTTCTTCCTT TCCCTGAGTT ATAAAAGACA TCATTGAACA ACTCATGGAC TTTTTCCCAA 
TTCTCCGTAG TCCTTCTAGA ACACAGGTCA GCAGATGTTT ACGACTCCAG TCCCCATGAT 
CTGAGTCTAG ACACCAGTGG GGATCCATAC TGGGGATGGC CTGCTGACTG GTAGGGAATT 
TGTCCCTTTC TTTGGCTGTC ATTCTATCAT TTACTTGACT AAGATACCAA GTATCTCCAA 
ATTCTCAGGC TGCAGCTAAA GCTGCATTCT TTTCATTAAA GGCCAGGGTT TGAT CTAATA 
GCATGACATC TCTCCAAGTG AGGTCAAAGG TTTGCCCTAG ATCCATAGGA CATCAGAGAA 
GGAGAAGGGG ACATACACCT GAGTTAGCCA AATTCCCCTC CCTCTACAGC TTGAAGGGGA 
CATAAGCAAT AGCCTGGGGA TTTTTGTGGT CCTTTGGAGA TTTCTTTGCT TGTTTCCTTC 
TGGGTGGGGG AGATTAGAGG AGGCTTATCA GTAATAGGAA GGGGAGCTAT AGGGAGGCTA 
GGATATGGGG GTAAGCTGAG AGGTCATCTT GTGGGATGTA AATTGCAAGC TTTGCATAGT 
TGTGGATTTT CCTTACAATG AAAATAAAGC TTGGACATAA GGTATTTCAC TCCATTTGCC 
TTCCCTCTTA CAGAAAAGGT CAAGCTGCAG GATAGTACTG TAATTTATAC TTCCTTCAGG 
TGGCCATTTC TTCCCATCAG AGAGAGAATA CTGGGGCTGG GCCATAGT 
(2) INFORMATIONS POUR LA SEQ ID NO: 20: Rl 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 711 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomiqu ) 



420 
480 
540 
600 
660 
720 
780 
840 
900 
960 
1020 
1080 
1140 
1200 
1260 
1308 
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(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 20: 

ACTGAGAGAC AGGACTAGCT GGATTTCCTA GGCCGACTAA GAATCCCTAA GCCTAGCTGG 60 

GAAGGTGACC ACGTCCACCT TTAAACACGG GGCTTGCAAC TTAGCTCACA CCTGACCAAT 120 

CAGAGAGCTC ACTAAAATGC TAATTAGGCA AAGACAGGAG GTAAAGAAAT AGCCAATCAT 180 

CTATTGCCTG AGAGCACAGC AGGAGGGACA ACAATCGGGA TATAAACCCA GGCATTCGAG 24 0 

CTGGCAACAG CAGCCCCCCT TTGGGTCCCT TCCCTTTGTA TGGGAGCTGT TTTCATGCTA 300 

TTTCACTCTA TTAAATCTTG CAACTGCACT CTTCTGGTCC ATGTTTCTTA CGGCTCGAGC 360 

TGAGCTTTTG CTCACCGTCC ACCACTGCTG TTTGCCACCA CCGCAGACCT GCCGCTGACT 4 20 

CCCATCCCTC TGGATCCTGC AGGGTGTCCG CTGTGCTCCT GATCCAGCGA GGCGCCCATT 4 80 

GCCGCTCCCA ATTGGGCTAA AGGCTTGCCA TTGTTCCTGC ACGGCTAAGT GCCTGGGTTT 540 

GTTCTAATTG AGCTGAACAC TAGTCACTGG GTTCCATGGT TCTCTTCTGT GACCCACGGC 600 

TTCTAATAGA ACTATAACAC TTACCACATG GCCCAAGATT CCATTCCTTG GAATCCGTGA 660 

GGCCAAGAAC TCCAGGTCAG AGAATACGAG GCTTGCCACC ATCTTGGAAG C 711 
(2) INFORMATIONS POUR LA SEQ ID NO: 21: R1F 

(i) CARACTERI ST I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 711 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 21: 

ACTGAGAGAC AGGACTAGCT GGATTTCCTA GGCTGACTAA GAATCCCTAA GCCTAGCTGG 60 

GAAGGTGACC ACATCCACCT TTAAACACGG GGCTTGCAAC TTAGCTCACA CCTGACCAAT 120 

CAGAGAGCTC ACTAAAATGC TAATTAGGCA AAGACAGGAG GTAAAGAAAT AGCCAATCAT 180 

CTATTGCCTG AGAGCACAGC AGGAGGGACA ATGATCGGGA TATAAACCCA AGTCTTCGAG 24 0 

CCGGCAACGG CAACCCCCTT TGGGTCCCCT CCCTTTGTAT GGGAGCTCTG TTTTCATGCT 300 

ATTTCACTCT ATTAAATCTT GCAACTGCAC TCTTCTGGTC CATGTTTCTT ACGGCTTGAG 360 

CTGAGCTTTC GCTCGCCATC CACCACTGCT GTTTGCCGCC ACCGCAGACC CGCCGCTGAC 420 

TCCCATCCCT CTGGATCATG CAGGGTGTCC GCTGTGCTCC TGATCCAGCG AGGCACCCAT 480 

TGCCGCTCCC AATCGGGCTA AAGGCTTGCC ATTGTTCCTG CATGGCTAAG TGCCTGGGTT 540 

CATCCTAATT GAGCTGAACA CTAGTCACTG GGTTCCATGG TTCTCTTCTG TGACCCACAG 600 

CTTCTAATAG AGCTATAACA CTCACCGCAT GGCCCAAGGT TCCATTCCTT GAATCCATAA 660 

GGCCAAGAAC CCCAGGTCAG AGAACACGAG GCTTGCCACC ATCTTGGGAG C 711 

(2) INFORMATIONS POUR LA SEQ ID NO: 22: HERV-7q (partie codante e/iv avec 
trois cadres de lecture) 

(i) CARACTERI STIQUES DE LA SEQUENCE: 
(B) TYPE: nucleotide 
tC) N OMBRE DE BRINS: simple 
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(D) CONFIGURATION: lin6aire 
(ii) TYPE DE MOLECULE: ADN (gfenomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 22: 
AAGCTCCTTCAGGAGAACAAAGAACAGGCCATTACCCTGGAGAAGACTGGCAACTGATTTTACCCACAAGCCCAA 

Lys LeuLeuG lnGl uAs nLy s Gl uG lnAl all eThr LeuGl uLy sThrGlyAsn . . . PheTyrProGlnAlaGln 
SerSerPheArgArgThrLysAsnArgProLeuProTrpArgArgLeuAlaThrAspPheThrHisLysProLys 
AlaProSerGlyGluGlnArgThrGlyHisTyrProGlyGlviAspTrpGliiLeuIleLeuProThrSerProAsn 

ACCTC3VGGGATTTCAGTATCTACTAGTCTGGCTAGATACTTTCACGGGTTGGGCAGAGGCCTTCCCCTGTAGGAC 
ThrSerGlylleSerValSerThrSerLeuGlyArgTyrPheHisGlyLeuGlyArgGlyLeuProLeu . . . Asp 
pLGlnGlyPheGlnTyrLeuLeuValTrpValAspThrPheThrGlyTrpAlaGluAlaPheProCysArgThr 
LeuArgAspPheSerlleTyr. . .SerGly. . . lleLeuSerArgValGlyGlnAxgProSerProValGlyGln 

AGAAAAGGCCC^GAGGTAATAAAGGCACTAGTTCATGAA^^ 

AraLysGlyProArgGl y A S nLysGlyThrSerS e r...AsiAsnSerGlnIleArgThrSerProArgLeuThr 
S^LysAlaGlnGluVallleLysAlaLeuValHisGluIlelleProArgPheGlyLeuProArgGlyLeuGln 
LysCgProLysArg ArgHis. . . PheMETLys . . .PheProAspSerAspPheProGluAlaTyrArg 

GAGTGACAATAGCCCTGCTTTCCAGGCCACAGTAACCCAGGGAGTATCCCAGGCGTTAGGTATACGATATCACTT 
til Gin. - . ProCYsPheProGlyHisSerAsnProGlySerlleProGlyValArgTyrThrlleSerLeu 
SerAspAsnSerProAlaPheGlnAlaThrValT^ 
;a^?eAi aL eul.euSerArgProGln. . . PraArgGluTyrProArgArg . . . ValTyrAspIleThrTyr 

ACACTGCGCCTGAAGGCCACAGTCCTCAGGGAAGGTC^ 

^hrSSArgLeuLysAlaThrValLeuArgGluGlyArgGluAsnGlu . . - AsnThrGlnArgThrSerLysLys 
Scvslla ArgProGlnSerSerGlyLysValGluLysMETAsnGluThrLeuLysGlyHasLeuLysLys 
ThrAlaProGluGlyHisSerProGlnGlyArgSerArgLys. . . METLysHisSerLysAspIle . . .LysSer 

GCAAACCCAGGAAACCCACCTCACATGGCCTGCTCTGTTGCCTATAGCCTTAAAAAGAATCTGCAACTTTCCCCA 

385 395 405 415 42S 435 445 

AlaAsnProGlyAsnProProHisMETAlaC^sSerValAlaTyrSerLeuLysLysAsnLeuGlnLeuSerPro^ 

SnSr^GluThrHisLeuThrTrpProAlaLeul.euProIleAlal.euI.ysArglleC^ 
iysProArgLysProThrSerHisGlyLeuLeuCysCysLeu. . .Pro. . . LysGluSerAlaThrPheProLys 

AAAAGCAGGACTTAGCCCATACGAAATGCTC^^ 

LvsSerAraThr. . .ProIleArgAsnAlaValTrpLysAlaLeuHisAsnGln. . .ProCysAla. . -P^oLys 

^AlallyLeuSerProTyrGlu^^ 

SsGlnAspLeuAlaHisThrLysCysCysMETGluGlyProSer. . . ProMETThrLeuCysLeuThrGlnAsp 

AC AGCCAACTTAGTTGCAGA<^TCACCTCOT 
ThrAlaAsnLeuValAlaAspIleThrSerLeuAla^ 

G^ProThr. . .LeuGlnThrSerProPro. . . ProAsnlleAsnLysPheLeuLysHisTyrLysGluProIle 

s2SlnLeuSerCysArgHisHi S Leu^^ 

CCCTGAGAAGAGGGAAAAGAACTATTCCACCCTTGTGACATGGTATTAGTCAAGTCCCTTCCCTCTAATTCCCCA 
Pro GluGluGlyLysGluLeuPheHisProCysAspMETValLeuValLysSerLeuProSerAsnSerPro 
ProG^^ysArgSl^ysAsnTyrSerThrLeuValThrrrpTyr . . . SerSerProPheProLeuIleProHxs 
SuArgLgGlyLysLgThrlleProProLeu. . .HisGlylleSerGlnValProSerLeu. . .PheProIle 



57 

TCCCTAGATACATCCTGGGAAGGACCCTACCCAGTCATTTTATCTACCCCAACTGCGGTTAAAGTGGCTGGAGTG 
SerLeviAspThrSerTrpGluGlyProTyrProVallleLeuSerThrProThrAlaValLysValAlaGlyVal 
Pro. . . ileHisProGlyLysAspProThrGlnSerPheTyrLeuProGlnLeuArgLeuLysTrpLeuGluTrp 
ProArgTyrlleLeuGlyArgThrLeuProSerHisPhelleTyrProAsnCysGly . . . SerGlyTrpSerGly 

GAGTCTTGGATACATCACACTTGAGTCAAATCCTGGATACTGCCAAAGGAACCTGAAAATCCAGGAGACAACGCT 
GluSerTrpIleHisHisThr . . . ValLysSerTrpIleLeuProLysGluProGliiAsnProGlyAspAshAla 
SerLeuGlyTyrIleThrLeuGluSerAsnProGlyTyrCysGliiArgAsnLeuLysIleGlnGluThrThrl.eu 
VallieuAspThrSerHisLeuSerGlnllelieuAspThrAlaLysGlyThr. . . LysSerArgArgGlnArg . . . 

AGCTATTCCTGTGAACCTCTAGAGGATTTGCGCCTGCTCTTCAAACAACAACCAGGAGGAAAGTAACTAAAATCA 
SerTyrSerCysGluProLeuGluAspLeuArgLeuLeuPheLysGlnGlnProGlyGlyLys. . .LeuLysSer 
AlalleProValAsnLeu. . . ArglleCysAlaCysSerSerAsnAsnAsnGlnGluGluSerAsn. . .AsnHis 
LeuPheLeu. . . ThrSerArgGlyPheAlaProAlaLeuGlnThrThrThrArgArgLysValThrLysIlelle 

TAAATCCCCATGGCCCTCCCTTATCATATTTTTCTCTTTACTGTTCTTTTACCCTCTTTCACTCTCACTGCACCC 
Ti^Pr-oMETAlaLeuProTyxHisIlePheLeuPheThrV alLeuLeuProSerPheThrLeuThrAlaPrp 
LysSerProTrpProSerLeuIlellePhePheSerLeuLeuPhePheTyrProLeuSerLeuSerLeuHisPro 
AsnProHisGlyProProLeuSerTyrPheSerLeuTyrCysSerPheThrLeuPheHisSerHisCysThrPr 

CCTCCATGCCGCTGTATGACCAGTAGCTCCCCTTACCAAGAGTTTCTATGGAGAATGCAGCGTCCCGGAAATATT 
ProProCvsa^arvsMETThrSerSerSerProTvrninGluPhe LeuTrpArqMETGlnArctProGlyAsnll^ 
LeuHisAlaAlaVal . . . ProValAlaProLeuThrLysSerPheTyrGlyGluCysSerValProGluIleLeu 
SerMETProLeuTyrAspGln. . .LeuProLeuProArgValSerMETGluAsnAlaAlaSerArgLysTyr . . . 

GATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCCACCTTCACTGCCCACACCCATATGCCCCGCAACTGC 
As^AlaProfiAT-TyrAraSer-LeuSerLvsGlvThrP r nThrPheThrAlaHisThrHisMETProArgAsnCys 
METProHisArglleGlyValPheLexaArgGluProProProSerLeuProThrProIleCysProAlaThrAla 
CysProIleVal. . .GluSerPhe. . .GlyAsnProHisLeuHisCysProHisProTyrAlaProGlnLeuLeu 

TATCACTCTGCCACTCTTTGCATGCATGCAAATACTCATTATTGGACAGGAAAAATGATTAATCCTAGTTGTCCT 
Tv-^HiaSe^AlaThrLeuCvsMETHisAlaAsnTbrHisTvrT r pThrGlvLvsMETIleAsriProSerCysPro 
IleThrLeuProLeuPheAlaCysMETGlnlleLeuIlelleGlyGlnGluLys . . .LeuIleLeuValValLeu 
SerLeuCysHisSerLeuHisAlaCysLysTyrSerLeuLeuAspArgLysAsnAsp. . .Ser. . .LeuSerTrp 

GGAGGACTTGGAGTCACTGTCTGTTGGACTTACTTCACCCAAACTGGTATGTCTGATGGGGGTGGAGTTCAAGAT 

«1 vfilvLeuGl v v a lThrValCv S TrpThrTvrPheThr G lnThrGlvMETSerAspGlvGl yGl yValGlnAsp 

GluAspLeuGluSerLeuSerValGlyLeuThrSerProLysLeuValCysLeuMETGlyValGluPheLysIle^p 
ArgThrTrpSerHisCysLeuLeuAspLeuLeuHisProAsnTrpTyrVal . . . TrpGlyTrpSerSerArgSeY"' 

CAGGCAAGAGAAAAACATGTAAAAGAAGTAATCTCCCAACTCACCCGGGTACATGGCACCTCTAGCCCCTACAAA 
m nAlaArnfil uLvsHisValLvsGluVal ileSerGlnLeuThrA r oValHisGlvThrSerSerProTyrLys 
ArgGlnGluLysAsnMET. . .LysLys. . .serProAsnSerProGlyTyrMETAlaProLeuAlaProThrLys 
GlyLysArgLysThrCysLysArgSerAsnLeuProThrHisProGlyThrTrpHisLeu. . . ProLeuGlnArg 

GGACTAGATCTCTCAAAACTACATGAAACCCTCCGTACCCATACTCGCCTGGTAAGCCTATTTAATACCACCCTC 
cWLeuAsnT.^SerLvsLeuHisGluThrLeuAraTh r HisThrAral.euValSerLeuPheAsnThrThrLeu 
Asp. . .ileSerGlnAsnTyrMETLysProSerValProIleLexiAlaTrp. . . AlaTyrLeuIleProProSer 
ThrArgSerLeuLysThrThr. . .AsnProProTyrProTyrSerProGlyLysProIle . . . TyrHxsProHis 

ACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTAACTGTTGGATATGCCTCCCCCTGAACTTCAGGCCATAT 
ThrGlvLpiiHisGluValSerAlaGlnAsnProThrAsnCvsTr plleCvsLeuProLeuAsnPheArqProTyr 
LeuGlySerMETArgSerArgProLysThrLeiaLeuThrValGlyTyrAlaSerPro . . .ThrSerGlyHisMET 
TrpAlaPro. . . GlyLeuGlyProLysProTyr . . .LeuLexiAspMETProProProGluLeuGlnAlalleCys 
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GTTTCAATCCCTGTACCTGAACAATGGAACAACTTCAGCACAGAAATAAACACCACTTCCGTTTTAGTAGGACCT 
v a 1Sf»i-IleP-»-oValProGluGlnTrpAsnAsnPhp R«=>-rThrGlu3:ieAsnThrThrSerValLeuValGlYPro 

PheGlnSerLeuTyrLeuAsnAsnGlyThrThrSerAlaGlnLys . . . ThrProLeuProPhe AspLeu 

PheAsnProCysThr . . . ThrMETGluGlnLeuGlnHisArgAsnLysHisHisPheArgPheSerArgThrSer 

CTTGTTTCCAATCTGGAAATAACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTACATACACAACC 
T.PnValSera«"^euGlulleThrHisThySerAsnT .f»tiThrC^sValLvsPheSerAsnThrThrTvrThrThr 
— LeuPheProIleTrpLys. . .ProIleProGlnThrSerProVal . . .AsnLeuAlalleLeuHisThrGlnPro 
CysPheGlnSerGlyAsnAsnProTyrLeuLysProHisLeuCysLysIle . . . GlnTyrTyrlleHisAsnGln 



AACTCCCAATGCATCAGGTGGGTAACTCCTCCCACACAAATAGTCTGCCTACCCTCAGGAATATTTTTTGTCTGT 
& Bn fl«Y^lPfVBlleArqTrpValThrPrr>ProThrfl1nIleVal C vfll.ettProSerGlvIlePhePheValCvB 
ThrProAsnAlaSerGlyGly. . .LeuLeuProHisLys . . .SerAlaTyrProGlnGluTyrPheLeuSerVal 
LeuProMETHisGlnValGlyAsnSerSerHisThrAsnSerLeuProThrLeuArgAsnllePheCysLeuTrp 

GGTACCTCAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCCTCTCATTCTTAGTGCCCCCTATG 
m vThrSeral aTvrAroCvsLeuRsnGlvSerSerG J ^BgrMETCvsPheLeuSerPheLeuValPToProMET 
ValProGlnProIleValVal . . .METAlaLeuGlnAsnLeuCysAlaSerSerHisSer . . .CysProLeu. . . 
TyrLeuSerLeuSerLeuPheGluTrpLeuPheArglleTyrValLeuProLeuIleLeuSerAlaProTyrAsp 

ACCATCTACACTGAACAAGATTTATAC^GTTATGTCATATCTAAGCCCCGCAACAAAAGAGTACCCATTCTTCCT 

Kt, >Ti ^Tyi^TflluQlnarotottTvrSerTvrVal TI aSeiLvaPrflAroAanLvaArBValProIleLeuPro 
ProSerThrLeuAsnLysIleTyrThrValMETSerTyrLeuSerProAlaThrLysGluTyrProPhePheLeu 
HisLeuHis. . .ThrArgPhelleGlnLeuCysHisIle. . . AlaProGlnGlnLysSerThrHisSerSerPhe 

TTTGTTATAGGAGCAGGAGTGCTAGGTGCACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTAC 
P v,^r = T -M »m YAlaGlvValLeuGlvAlal-euGlvThr G l V Tl eGlvGlvIleThrThrSerThrGlnPheTyr 
LeuLeu . .GluGlnGluCys . . .ValHis . . .ValLeuAlaLeuAlaValSerGlnProLeuLeuSerSerThr 
CysTyrArgSerAxgSerAlaJUrgCysThrArgTyrTrpHisTrpArgTyrHisAsnLeuTyrSerValLeuLeu 

TACAAACtATCTCAAGAACTAAATGGGGACATGGAACGGGTCGCCGACTCCCTGGTCACCTTGCAAGATCAACTT 
T^L VS Leufi^r^lnGluLeiiAsnGlvAs^MFTG^iAra V a TAl a A SP SerLeuValThrT.exiGlnAspGlnL^u 
ThrAsnTyrLeuLysAsn. . .METGlyThrTrpAsnGlySerProThrProTrpSerProCysLysIleAsnLeu 
GlnThrlleSerArgThrLysTrpGlyHisGlyThrGlyArgArgLeuProGlyHisLeuAlaArgSerThr . . . 

AACTCCCTAGCAGCAGTAGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGGGAACCTGT 
R g nS e rLeufi1aAl a ValValLeuGlnAsnAraAraAl ^ T. P iiA S pLeuLeuThrAlaGliiArcfGlYGlYThrCys 
ThrPro GlnGln. . .SerPheLysIleGluGluLeu. . .ThrCys. . . ProLeuLysGluGlyGluProVal 
LeuProSerSerSerSerProSerLysSerLysSerPheArgLeuAlaAsnArg. . . LysArgGlyAsnLeuPhe 

TTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATCAATCCGGAATCGTCACTGAGAAAGTTAAAGAAATTCGA 
T^iiPheLevm vGluGluCvsCvsTvrTVi-ValAsnGln s^rGlvIleValThrGluLvsVa 1 T.ysGluIleArg 
TyrPhe . GlyLysAsnAlaVallleMETLeuIleAsnProGluSerSerLeuArgLysLeuLysLysPheGlu 
IlePheArgGlyArgMETLeuLeuLeuCys. . . SerlleArgAsnArgHis. . .GluSer. . . ArgAsnSerArg 

GATCGAATACAACGTAGAGCAGAGGAGCTTCGAAACACTGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCTGG 
AsnArall^GlnArQAraAlaGluGluLeiiArQAsn T hT-nlvProTr^GlvLeiiLeuSerGlnTrpNIETProTrp 
IleGluTyrAsnValGluGlnArgSerPheGluThrLeuAspProGlyAlaSerSerAlaAsnGlyCysProGly 
SerAsnThrThr . . . SerArgGlyAlaSerLysHisTrpThrLeuGlyProProGlnProMETAspAlaL.euAsp 



f 
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ATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTCTTTGGACCCTGTATCTTTAACCTCCTT 
TleLeuProPheLeuGlvProLeuAlaAlallelleLeuLeuLeuLeuPheGlvPr oCvsIlePheAsnLeuLeu 
PheSerProSer . . .AspLeu. . .GlnLeu. . .TyrCysTyrSerSerLeuAspProValSerLeuThrSerLeu 
SerProLeuLeuArgThrSerSerSerTyrAsnlleAlaT^ . . ProProCys 

GTTAACTTTGTCTCTTCCAGAATCGAAGCTGTAAAACTA 
ValAsnPheValSerSerAralleGliiAlaValLvsI^uGln^ 

LeuThrLeuSerLeuProGluSerLysLeu. . .AsnTyrLysTrpSerProArgCysSerProArgLeuArgSer 
.LeuCysLeuPheGlnAsnArgSerCysLysThrThrAsnGlyAlaGlnAspAlaValGlnAs . .AspLeu 

TACCGCAGACCCCTGGACCGGCCTGCTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCCCTCCTGAGGAA 
T^AraAraProLeiiAsnAraProAlaSerProAraSerAspValAsnAspI leLvsGlvThrProProGluGlu 

Thr Al aAspProTrpThrGlyLeuLe^ 
ProGlnThrProGlyProAlaCys . . .ProThrlle. . .Cys HisGlnArgHisProSer . . .GlyAsn 



ATCTCAGCTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCCCCA 
Tl e serAlaAlaGlnPrQLeuLeuAraProAsnSerAlaGlvSerSer . . . SerGlyArgArgProThrSerPro 

S erGlnLeuHi s AsnLeuTyrT^ 
LeuSerCysThrThrSerThrThrProGlnPheSerAr^^ 

ACAGCACTTAGGTTTTCCTGTTGAGATGGGGG 
ThrAlaLeuArgPheSerCys . . . AspGlyGly 
GlnHisLeuGlyPheProValGluMETGly 
SerThr . . . ValPheLeuLeuArgTrpGly 

(2) INFORMATIONS POUR LA SEQ ID NO: 23: HERV-7q (proteine env deduite) 

(i) CARACTERI STIQUES DE LA SEQUENCE: 
<B) TYPE: nucleotide 

(C) N OMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 23: 

PKTANLVADITSLAKYQQVLKTLQG 

CCCAAGACAGCCAACTTAGTTGCAGACATCACCTCCTTAGCCAAATATCAACAAGTTCTT 
TYPXEEGKELFHPCDMVLVKSLPSN 

ACCTATCCCTGAGAAGAGGGAAAAGAACTATTCCACCCTTGTGACATGGTATTAGTCAA 
SPSLDTSWEGPYPVILSTPTAVKVA 

TCCCCATCCCTAGATACATCCTGGGAAGGACCCTACCCAGTCATTTTATCTACCCCAACTGCGGTTAAAGTGGCT 
GVESWIHHTXVKSWILPKEPENPGD 

GGAGTGGAGTCTTGGATACATCACACTTGAGTCAAATCCTGGATACTGCCAT^GGAACCTGAT^AATCCAGGAGAC 
NASYSCEPLEDLRLLFKQQPGGK*L 

AACG CTAGCT ATT C CTGTGAAC CTCTAGAGGATTTGCGC CTGCT CTT CAAACAACAACCAGGAGGAAAGTAACTA 
KSX IPMALPYHIFLFTVLLPSFTLT 

AAATCATAAATCCCC^TGGCCCTCCCTTATCATATTTTTCTCTTTACTGTTCTTTTACCCTCTTTCACTCTCACT 
APPPCRCMTSSSPYQEFLWRMQRPG 

GCACCCCCTCCATGCCGCTGTATGACC^GTAGCTCCCCTTACCAAGAGTTTCTATGGAGAATGCAGCGTCCCGGA 
NIDAPSYRSLSKGTPTFTAHTHMPR 

AATATTGATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCCACCTTCACTGCCCACACCCATATGCCCCGC 

NCYH S ATL CMHANTH YWTGKMI N P S 
AACTGCTTATCACTCTGCCACTCTTTGCATGCATGCAAATACTCATTATTGGACAGGA 



60 



CPGGLGVTVCWTYFTQTGMSD GGGV 
TGTCCTGGAGGACTTGGAGTCACTGTCTGTTGGACTTACTTCACCCAAACTGGTATGTCTGATGGGGGTGGAGTT 

QDQAREKHVKEVISQLTRVHGTSSP 
CAAGATCAGGCAAGAGAAAAACATGTAAAAGAAGTAATCTCCCAACTCACCCGGGTACATGGCACCTCTAGCCCC 

YKGLDLSKLHETLRTHTRLVS LFNT 
TACAAAGGACTAGATCTCTCAAAACTACATGAAACCCTCCGTACCCATACTCGCCTGGTAAGCCTATTTAATACC 

TLTGLHEVSAQNPTNCWICLPLNFR 
ACCCTCACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTAACTGTTGGATATGCCTCCCCCTGAACTTCAGG 

PYVS IP VPEQWNNFSTEINTTSVLV 
CCATATGTTTCAATCCCTGTACCTGAACAATGGAACAACTTCAGCACAGAAATAAACACCACTTCCGTTTTAGTA 

GPLVSNLEITHTSNLTCVKFSNTTY 
GGACCTCTTGTTTCCAATCTGGAAATAACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTACATAC 

TTNSQCIRWVTPPTQIVCLP SGI FF 
ACAACCAACTCCCAATGCATCAGGTGGGTAACTCCTCCCACACAAATAGTCTGCCTACCCTCAGGAATATTTTTT 

VCGTSAYRC LNGSSESMCFLSF LVP 
GTCTGTGGTACCTCAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCCTCTCATTCTTAGTGCCC 

PM T I Y TEQDLYS YV I S KP RNKRV P I 
CCTATGACCATCTACACTGAACAAGATTTATACAGTTATGTCATATCTAAGCCCCGCAACAAAAGAGTACCCATT 

LP FVIGAGVLGALGTGIGGITTSTQ 
CTTCCTTTTGTTATAGGAGCAGGAGTGCTAGGTGCACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAG 

FYYKLSQELNGDM ERVADSLVTLQD 
TTCTACTACAAACTATCTCAAGAACTAAATGGGGiiCATGGAACGGGTCGCCGACTCCCTGGTCACCTTGCAAGAT 

Q L N S laAVVLQ NRRAIjDI<L>TAERGG 
CAACTTAACTCCCTAGCAGCAGTAGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGGGA 

tclfi- geeccyyvnqsgi vtekvke 

ACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATCAATCCGGAATCGTCACTGAGAAAGTTAAAGAA 

I R DR I QRRA E E LRNTGPWGL X.S QW M 
ATTCGAGATCGAATACAACGTAGAGCAGAGGAGCTTCGAAACACTGGACCCTGGGGCCTCCTCAGCCAATGGATG 

pwilpflgplaai illllfgpcifn 

CCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTCTTTGGACCCTGTATCTTTAAC 
LLVNFVSSRIEAVKLQMEPKMQSKT 

CTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGCTGTAAAACrACAAATGGAGCCCAAGATGCAGTCCAAGACT 
KIYRRPLDRPAS PRSDVNDIKGTPP 

AAGATCTACCGCAGACCCCTGGACCGGCCTGCTAGCCCACGATCTGATGTTAATGAGATCAAAGGCACCCCTCCT 
E EISAAQPLLRPNSAGSSXSGRRPT 

GAGGAAATCTCAGCTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACC 

SPTALRFSCX 
TCCCCAACAGCACTTAGGTTTTCCTGTTGA 

(2) INFORMATIONS POUR LA SEQ ID NO: 24: HERV-7q (partie codante gag) 

(i) CARACTERISTIQOES DE LA SEQUENCE: 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 24: 
TS pvEKANGVKCHKY 
ACC TCT TTT GTA GAA AAG GCA AAT GGA GTG AAG TGC CAT AAG TAC 

K L S F H X E T T H N YV K S 
AAA CTT TCT TTT CAT TAA GAG ACA ACT CAC AAT TAT GTA AAA AGT 

VIY-AL QEAFRVYLPI 
GTG ATT TAT GCC CTA CAG GAA GCC TTC AGA GTC TAC CTC CCT ATC 
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PASPTPSP 
CCA GCA TCC CCG ACT CCT TCC CCA 

TQMVQKEI 
ACC CAA ATG GTC CAA AAG GAG ATA 

PKSANIPQ 
CCA AAG AGT GCC AAT ATT CCC CAA 

GGREFGPA 
GGA GGA AGA GAA TTC GGC CCA GCC 

LPDLKQIK 
CTC CCA GAC TTA AAG CAA ATA AAA 

DNPDGYID 
GAT AAC CCT GAT GGC TAT ATT GAT 

F F D L T W R D 
TTC TTT GAT CTG ACA TGG AGA GAT 

TLTPNE RS 
ACA CTA ACC CCA AAT GAG AGA AGT 

E F G D L W Y Li 
GAG TTT GGC GAT CTC TGG TAT CTC 

X T E E R E X F 
ACA ACA GAG GAA AGA GAA TGA TTC 

PSLDPHWD 
CCC AGT CTA GAC CCT CAT TGG GAC 

WCCRHLLT 
TGG TGC TGC AGA CAT TTG CTA ACT 

KT RKKSMN 
AAA ACT AGG AAG AAG TCT ATG AAT 

TQGREENP 
ACA CAG GGA AGG GAA GAA AAT CCT 

R E A L R K R A 
AGG GAG GCA TTG AGG AAG CGT GCC 

EGQLILKR 
GAA GGC CAA CTA ATC TTA AAG CGT 

ADIRKKLQ 
GCA GAC ATT AGA AAA AAA CTT CAA 

QNLETLLN 
CAA AAC TTA GAA ACC CTA TTG AAC 

NRDQEEQA 
AAT AGA GAT CAG GAG GAG CAG GCG 

KKGHRFS.H 
AAA AAA GGC CAC CGC TTT AGT CAT 

WRLWKREK 
TGG AGG CTC TGG AAA AGG GAA AAG 



T N K D P P S 
ACT AAT AAG GAC CCC CCT TCA 

D K R V N S E 
GAC AAA AGG GTA AAC AGT GAA 

I* X P L Q A V 
TTA TGA CCC CTC CAA GCA GTG 

R V H V P F S 
AGA GTG CAT GTG CCT TTT TCT 

T D L G K F S 
ACA GAC TTA GGT AAA TTC TCA 

V L Q G I* G Q 
GTT TTA CAA GGG TTA GGA CAA 

I M S L L N Q 
ATA ATG TCA CTG CTA AAT CAG 

A T I T A A X 
GCC ACC ATA ACT GCA GCC TGA 

S Q V N D R M 
AGT CAG GTC AAT GAT AGG ATG 

p T G Q Q A V 
CCC ACA GGC CAG CAG GCA GTT 

T E S E H G D 
ACA GAA TCA GAA CAT GGA GAT 

C V L E G L R 
TGT GTG CTA GAA GGA CTA AGG 

Y S M M S T I 
TAC TCA ATG ATG TCC ACC ATA 

T A F L E R L 
ACT GCC TTT CTG GAG AGA CTA 

S. L S P D S S 
TCT CTG TCA CCT GAC TCT TCT 

K F I T Q S A 
AAG TTT ATC ACT CAG TCA GCT 

K S A V G P E 
AAG TCT GCC GTA GGC CCG GAG 

L A T S V F Y 
TTG GCA ACC TCG GTT TTT TAT 

E Q D K R D X 
GAA CAG GAC AAA CGG GAT TAA 

D P Q A S G L 
GAC CCT CAG GCA AGT GGA CTT 

L G K Ij N A X 
CTG GGC AAA TTG AAT GCC TAA 



(2) INFORMATIONS POUR LA SEQ ID NO: 25: proteine env (cadre de lecture 1) 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 25: 

PKTANLVADITSLAKYQQVLKTLQGTYTXEEGKELFHPCD 
pypVILSTPTAVKVAGVESWIHHTXVKSWILPKEPENPGDNASY 

GGKXLKSX I PMALP YHI FLFTVLLPSFTLTAPPPCRCMTS S S PYQE FLWRMQRPGNIDAP 
SyRSLSKGTPTFTAHTHMPRNCYHSATLCMHANTHYWTGKMINPS CPGGLGVTVCWTYFT 
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QTGMSDGGGVQDQAREKHVKF\TI SQLTRVHG 

TLTGLHEVS AQNPTNCWI CLPLNFRPYVS I PVPEQWNNFS TE INTTSVLiVGPLVSNIjE IT 
HTSNIiTCVKFSNTTYTTNSQC I RWVTPPTQI VCLP SG I FFVCGTS AYRCLNGS S E SMCFL 
SFLVPPMTIYTEQDLYSYVISKPMtfKRVPILPFV^ 

S QELNGDMERVADSLVTLjQDQIjNS LAAVVLQNRRAIjDIjLTAERGGTCLFIjGEE CC YYVNQ 

SGIVTEKVKEIRDRIQRRAEELRNTGPWGLLSQWMPWILPFLGPIAAIILLLLFGPC 

LLVNFVSSRIEAVKLQMEPKMQSKTKIYRRPLDRPASPRSDVNDIKGTPPEEISAAQPIiL 

RPNS AGS SXSGRRPTS PTALRFS CX 

(2) INFORMATIONS POOR LA SEQ ID NO: 26: proteine gag 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 

<ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 26: 

TSFVEKANGVKCHKYKLSFHXETTHNYVKSVIYALQEAFRVYLPIPA^ 

TQMVQKEIDKRVNSEPKSANIPQLXPLQAVGGREFGPARVHVPFSLPDLiKQIKTDLGKFS 

DNPDGYIDVLQGLGQFFDLTWRDIMSLIjNQTLTPNERSATITAAXEFGDLWYLSQVNDRM 

TTEEREXFPTGQQAVPSIJDPHWDTESEHGDWCCRHI^^ 

TQGREENPTAFI^RLREALRKRASLSPD^^ 

QNLETLLNIxATSVTYNRE^EEQAEQDKRDXKKGH^ 

(2) INFORMATIONS POUR LA SEQ ID NO: 27: proteine env (cadre de lecture 1) 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 27: 

LysLeixLeuGlnGluAsnLysGluGlnAlalleThrLeuGluLysThrGlyAsn. . . PheTyrProGlnAlaGln 
ThrSerGlylleSerValSerThrSerLeuGlyArgTyrPheHisGlyLeuGlyArgGlyLeuProLeu ... Asp 
ArgLysGlyProArgGlyAsnLysGlyThrSerSer. . . AsnAsnSerGlnlleArgThxSerProArgLeuThr 
Glu. . .Gin. . .ProC^sPheProGlyHisSerAsnPro^ 

ThrLeuArgLeuLysAlaThrValLeuArgGluGlyArgGluAsnGlu. . . AsnThrGlnArgThrSerLysLys 
jQaAsnProGlyAsnProProHisMETAla^ 

LysSerArgThr. . . ProIleArgAsnAlaValTrpLysAlaLeuHisAsnGln . . .ProCysAla. . .ProLys 
ThrAlaAsnieuValAlaAspIleT^^ 

Pro . . . GluGluGlyLysGluLeuPheHisProCysAspMETValLeuValLysSerLeuProSerAsnSerPro 
SerLeuAspThrSerTrpGluGlyPro 
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GluSerTrpIleHisHisThr . . . ValLysSerTrpIleLeuProLysGluProGluAsnProGlyAspAsnAla 
SerTyrSerCysGluProIieuGluAspLeuArgLeuIieuPheLysGlnGlnProGlyGlyLys . . . LeuLysSer 
. TieProMETAlaLeuProTvrHisIlePheLeuPheThrValLeuLeuProSerPheThrLeu ThrAlaPro 
ProProCvsArqCvsMETThrSerSerSerPr^ 
AspAlaPr-oSerTvxArgSerLeuSerLvsGlvThrPro^ 
TvrHisSerAlaThrLeuCvsMETHisAl 
GlvGlvI.guGlvValThrValCvsTrpTh^ 

GlnAlaA!raGluLvsHisValLvsGluValIleSerGlnLeuThrArqValHisGlvThrS eirSerProTvrL.vs 

GlvLeuAspLeuSerLvsLeuHisGluTrirLeuArqT^^ 

ThrGlvLgiiHisGluValSerAlaGlnAsnProT^ 

ValSerlleProValProGluGlnTrpAsnAsnPheSerThrGluIleAsnThrTh rSerValLeuValGlyPro 
LeuValSerAsnLeuGluIleThrHisTh^ 

AsnSerGlTi^sIleArqTrpValThrProProThrGlnlleValCVs LeuProSerGlvIlePhePheValCys 
GlvThrSerAlaTvxArqCvsLeuAsnGlvSerSerGlu^^ 

ThrIleTvrThrGluGlnAsr>LeuT\rrSerTvrValIleSerLvsProArqAsn IiVsArqValProIleLeuPro 
PheValI^eGlvAlaGlvValLeuGlvAlaLeuGlvThrGlvIleGlv<3 1vIleThrThrSerThrGlnPheTyr 

TyrLvsLeuSerGlnGluLeuAsnGlvAspMETGluA^ 
AsnSerLeuAlaAlaValValLeuGlnAsiA^ 

LeuPheLeuGlvGluGluCVsCvsTv^TyrValAsnGlnSerGlvIl eValThrGluLvsValLvsGluIleArg 
AspArqlleGlnArgArqAlaGluGluLeuArqAs 

TleLeuProPheLeuGlvProLeuAlaAlallelleLeuLeuLeuLeuP heGlvProCVsIlePheAsnLeuLeu 
ValAsnPheValSerSerArqlleGltiAlaValLvsIieuGlnMETGluProLvsM ETGlnSerT.vsThrLvsIle 
TvrArqAyqProLeuAspArqProAlaSer^ 

IleSerAlaAlaGlnProLeuLeuArgProAsnSerAlaGlvSerSer . . . SerGlyArgArgProThrSerPro 
ThrAlaLeuArgPheSerCys. . . AspGlyGly 

(2) INFORMATIONS POUR LA SEQ ID NO: 28: proteine env (cadre de lecture 2) 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 



64 

(ii) TYPE DE MOLECULE: prot^ine 

<xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 28: 
SerSerPheArgArgThrLysAsnArgProLeuProTrpArgArgLeuAlaThrAspPheThrHisLysProLys 
ProGlnGlyPheGlnTyrLeuLeuValTrpV^ 

GluLysAlaGlnGluVallleLysAlaLeuValHisGluIlelleProArgPheGlyLeuProArgGlyLeuGln 
SerAspAsnSerProAlaPheGlnAlaThrValThrGl^^ 

HisCysAla . . . ArgProGlnSerSerGlyLysValGluLysMETAsnGluThrLeuLysGlyHisIieuLysLys 

GlnThrGlnGluThrHisLeuThrTrpProAlaLeuLeuProIleAlaLeuLysArglleCysAsnPheProGln 

LysAlaGlyLeuSerProTyrGluMETLeuTyrGly^gProPhelleThrAsnAspLeuV 

GlnProThr. . . LeuGlnThrSerProPro. . . ProAsnlleAsnLysPheLeuLysHisTyrLysGluProIle 

ProGluLysArgGluLysAsnTyrSerThrLeuValThrTrpTyr . . . SerSerProPheProLeuIleProHis 

Pro. . . ileHisProGlyLysAspProThrGlnSerPheTyrLeuProGliiLeiiArgLeuIiysTrpLeuGluT^ 

SerLeuGlyTyrlleThrLeuGluSerAsnProGly^ 

AlalleProValAsnLeu. . . Argil eCysAlaCys SerSerAsnAsnAsnGlnGluGluSerAsn. . .AsnHis 
LysSerProTrpProSerLeuIlellePhePheSerLe^ 

LeuHisAlaAlaVal . . . ProValAlaProLeuThrLysSerPheTyrGlyGluCysSerValProGluIleLeu 
METProHisArgileGlyValPheLeuArgGlu^^ 

IleThrLeuProLeuPheAlaCysMETGlnlleLeuIlelleGlyGlnGlxiLys . . . LeuIleLeuValValLeu 
GluAspLeuGluSerLeuSerValGly^ 

ArgGlnGluLysAsnMET . . .LysLys. . . SerProAsnSerProGlyTyrMETAlaProLexiAlaProThrLys 
Asp. . .ileSerGlnAsnTyrMETLysProSerValProIleLeuAlaTrp. . . AlaTyrLeuIleProProSer 
LeuGlySerMETArgSerArgProLysThrLexxLeuThrValGlyTyrAlaSerPro. . .ThrSerGlyHisMET 

PheGlnSerLeuTyrLeuAsnAsnGlyThrThrSerAlaGlnLys ... ThrProLeuProPhe . AspLeu 

LeuPheProIleTrpLys . . . ProIleProGlnThrSerProVal . . . AsnLeuAlalleLeuHisThrGlnPro 
ThrProAsnAlaSerGlyGly. ■ . LeuLeuProHisLys . . . SerAlaTyrProGlnGluTyrPheLeuSerVal 
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ValProGlnProIleValVal . . .METAlaLeuGlnAsnLeuCysAlaSerSerHisSer . . .CysProLeu. . . 
ProSerThrLeuAsnLysIleTyrThrVal^ 

LeuLeu. . . GluGlnGluCys . . .ValHis. . . ValLeuAlaLeiiAlaValSerGlnProLeuIieuSerSerThr 
Thr AsnTyrLeuLysAsn . . .METGlyThrTrpAsnGlySerProThrProTrpSerProCysLysIleAsnl^eu 
ThrPro. . .GlnGln. . . SerPheLysIleGluGluLeu. . .ThrCys. . . ProLeuLysGluGlyGluProVal 
TyrPhe - . .GlyliysAsnAlaVallleMETLeuIleAsnProGluSerSerLexi^gLysLeuLysLysPheGlu 
IleGluTyrAsnValGluGlnArgSerPheGluThrLeuAspProGlyAlaSerSerAlaAsnGlyCysProGly 
PheSerProSer. . .AspLeu. . .GlnLeu. . . TyrCysTyrSerSerLeuAspProValSerLeuThrSerLeu 
LeuThrLeuSerLeuProGluSerLysLeu . . . AsnTyrLysTrpSerProArgCysSerProArgLe\iArgSer 
ThrAlaAspProTrpThrGlyLeuLeuAl^^ 

SerGlnLeuHisAsnLeuTyr^ 
GlnHisLeuGlyPheProValGlxoMETGly 

(2) INFORMATIONS POUR LA SEQ ID NO: 29: proline env (cadre de lecture 3) 

(i) C ARACTER I ST I QUE S DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 29: 
AlaProSerGlyGluGlnArgThrGlyHi^ 

LeuArgAspPheSerlleTyr. . .SerGly. . . HeLeuSerArgValGlyGlnArgProSerProValGlyGln 

LysArgProLysArg ArgHis. . . PheMETLys . . . PheProAspSerAspPheProGluAlaTyrArg 

ValThrlleAlaLeuLeuSerArgProGln. . . ProArgGluTyrProArgArg . . .ValTyrAspIleThrTyr 
ThrAlaProGluGlyHisSerProGlnGlyArgSerArgLys. . .METLysHisSerLysAspIle . . .LysSer 
LysProArgLysProThrSerHisGlyLeuLeuCysCysLeu. . .Pro. . .LysGluSerAlaThrPheProLys 
LysGlnAspLerAlaHisThrLysCysCysMETGluGlyProSer. . . ProMETThrLeuCysLeuThrGlnAsp 
SerGlnLeuSerCysArgHisHisLeuLeuSerGlnlleSerThrSerSer . . . AsnlleThrArgAsnLeuSer 
LeuArgArgGlyLysArgThrlleProProLeu. . .HisGlylleSerGlnValProSerXeu. . .PheProIle 
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ProArgTyrlleLeuGlyArgThrLeuProSerHisPhelleTyrProAsnCysGly . . . SerGlyTrpSerGly 
ValLeviAspThrSerHisLeuSerGlnlleLeuAspThrAlaLysGlyThr. . . LysSerArgArgGlnArg . . . 
LeuPheLeu . . . ThrSerArgGlyPheAlaProAlaLeuGlnThrThrThrArgAxgLysValThrLysIlelle 
AsnPrbHisGlyProProLeuSerTyrPheSerLeuTyrCysSerPheThrLeuPheHisSerHisCysThrPro 
SerMETProLeuTyrAspGln. . .LeuProLeuProArgValSerMETGluAsnAlaAlaSerArgLysTyr . - . 
CysProIleVal. . .GluSerPhe. . . GlyAsnProHisLeuHisCysProHisProTyrAlaProGlnLeuLeu 
SerLeuCysHisSerLeuHisAlaCysLysTyrSerLeuLeuAspArgLysAsnAsp. . .Ser. . .LeuSerTrp 
ArgThrTrpSerHisCysLeuLeuAspLeuLeuHisProAsnTrpTyrVal . . . TrpGlyTrpSerSerArgSer 
GlyLysArgLysThrCysLysArgSerAsnLeuProThrHisProGlyThrTrpHisLeu . . . ProLeuGlnArg 
ThrArgSerLeuLysThrThr. . .AsnProProTyrProTyrSerProGlyLysProIle . . .TyrHisProHis 
TrpAlaPro. . .GlyLeuGlyProLysProTyr . . .LeuLeuAspMETProProProGluLeuGlnAlalleCys 
PheAsnProCysThr . . . ThrMETGluGlnLeuGlnHisArgAsnLysHisHisPheArgPheSerArgThrSer 
CysPheGlnSerGlyAsnAsnProTyrLeuLysProHisLeuCysLysIle . . . GlnTyrTyrlleHisAsnGln 
LeuProMETHisGlnValGlyAsnSerSerHisThrAsnSerLeuProThrLeuArgAsnllePheCysLeuTrp 
TyrLeuSerLeuSerLeiiPheGluTrpLeuPheArglleTyrValLeuProLeuIleLeuSerAlaProTyrAsp 

HisLeuHis. . .ThrArgPhelleGlnLeuCysHisIle. . .AlaProGlnGlnLysSerThrHisSerSerPhe 
C^sTyrArgSerArgSerAlaArgCysThrArgTyrTrpHisTrpArgTyrHisAsnLeuTyrSerValL 
GlnThrIleSerArgThrLysTrpGlyHisGlyThrGlyArgArgLeuProGlyHisLe\iAlaArgSerThr . . . 
LeuProSerSerSerSerProSerLysSerLysSerPheArgLeuAlaAsnArg . . . LysArgGlyAsnLeuPhe 
IlePheArgGlyArgMETLeuLe\iLeuCys . . .SerlleArgAsnArgHis . . .GluSer. . . ArgAsnSerArg 
SerAsnThrThr . . . SerArgGlyAlaSerLysHisTrpThrLeuGlyProProGlnProMETAspAlaLeuAsp 
SerProLeuLeuArgThrSerSerSerTyrAsnlleAlaThrProLeuTrpThrLeuTyrLeu. . .ProProCys 
.LeuCysLeuPheGlnAsnArgSerCysLysThrThrAsnGlyAlaGlnAspAlaValGlnAsp. . .AspLeu 

ProGlnThrProGlyProAlaCys . . .ProThrlle. . -Cys .HisGlnArgHisProSer. . .GlyAsn 

LeuSerC^sThrThrSerThrThrProGlnPheSerArgLysGlnLeuGliiArgSerSerAlaAsnLeuProAsn 
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SerThr. . . ValPheLeuLeuArgTrpGly 



(2) INFORMATIONS POUR LA SEQ ID NO: 30 : GIF 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 26 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



<xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 30 
GGACCATAGAGGACACTCCAGGACTA 
(2) INFORMATIONS POUR LA SEQ ID NO: 31 : G1R 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 25 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi> DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 31 
CCTCAGTCCTGCTGCTGGATCATCT 

(2) INFORMATIONS POUR LA SEQ ID NO: 32 : G2F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 32 
CCTCCAAGCAGTGGGAGGAAGAGAATT 

(2) INFORMATIONS POUR LA SEQ ID NO: 33 : G2R 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 28 paires de bases 

(B) TYPE: nucleotide 

CO NOMBRE DE BRINS: simple 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 33 
C CTTCCCTGTGTT ATTGTGGACATCATT 
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(2) INFORMATIONS POUR LA SEQ ID NO: 34 : G4F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 30 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 34 
GGAAGAAGTCTATGAATTATTCAATGATGT 

(2) INFORMATIONS POUR LA SEQ ID NO:35 : G3F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 35 
GGGACACAGAATCAGAACATGGAGATT 
(2) INFORMATIONS POUR LA SEQ ID NO: 36 : G4R 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 36 
GCCTTCAGAAGAGTCAGGTGACAGAGA 

(2) INFORMATIONS POUR LA SEQ ID NO: 37 : GSR 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 25 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO:37 
GAGCCTCCAAAGTCCACTTGCCTGA 

(2) INFORMATIONS POUR LA SEQ ID NO: 38 : E1F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 29 paires de bases 

(B) TYPE: nucleotide 
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(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineair 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 38 
GATTTCAGTATCTACTAGTCTGGGTAGAT 

(2) INFORMATIONS POUR LA SEQ ID NO: 39 : E1R 

(i) CARACTER I ST I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 39 
CTAGGAAATCCAGCTAGTCCTGTCTCA 

(2) INFORMATIONS POUR LA SEQ ID NO: 40 : E2F 

(i> CARACTERI S T I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 28 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 40 
C CAAGACAGC C AACTT AGTTG CAG ACAT 

(2) INFORMATIONS POUR LA SEQ ID NO: 41 : E2R 

(i) CARACTERI ST I QUES DE LA SEQUENCE: 

(A) LONGUEUR: 28 paires de bases 

(B) . TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 41 
GGACGCTGCATTCTCCATAGAAACTCTT 

(2) INFORMATIONS POUR LA SEQ ID NO: 42 : E3F 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 29 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 
CD) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 
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(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 42 : 
GCAATACTACATACACAACCAACTCCCAA 

(2) INFORMATIONS POUR LA SEQ ID NO: 4 3 : E3R 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 26 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION : lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 43 
GGGGGAGGCATATCCAACAGTTAGTA 

(2) INFORMATIONS POUR LA SEQ ID NO: 44 : E4F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 30 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 4 
CCATCTACACTGAACAAGATTTATACACTT 

(2) INFORMATIONS POUR LA SEQ ID NO: 45 : E4R 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 28 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE : SEQ ID NO: 45 
AATGCCAGTACCTAGTGCACCTAGCACT 

(2) INFORMATIONS POUR LA SEQ ID NO: 46 : E5F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 31 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii> TYPE DE MOLECULE: ADNc (amorce) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 46 
CGAATACAACGTAGAGCAGAGGAGCTTCGAA 
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(2) INFORMATIONS POUR LA SEQ ID NO: 47 : E6F 

(i) CARACTERI ST I QUE S DE LA SEQUENCE: 

(A) LONGUEUR: 28 pair s de bas s 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 47 : 
AGC C CAAGATG CAGT C CAAG ACT AAGAT 
(2) INFORMATIONS POUR LA SEQ ID NO:48 : E5R 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 48 : 
G CGT AGTAGAGGTTGTG CAGCTGAGAT 

(2) INFORMATIONS POUR LA SEQ ID NO: 49 : ExF 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 4 9 : 
CCCTTACCAAGAGTTTCTATGGAGAAT 

(2) INFORMATIONS POUR LA SEQ ID NO: 50 : ExR 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lin6aire 

<ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 50 : 
ACCGCTCTAACTGCTTCCTGCTGAATT 

(2) INFORMATIONS POUR LA SEQ ID NO: 51: proteine gag 

(i) CARACTERI STIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lin6air 
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(ii) TYPE DE MOLECULE: protein 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 51: 
TSF\TEKANGVKCHKYKLS FTKETTHNYVKSVI YALQEAFRVYLP ILPAS PTPS ^^^^^^j'jJY^^^^^Y? 

SgSS^^ 

RTLXKRL! 



SKXKXAAPSSMPLISRESLEGPLPO^TKVLXVRSHXPD/SSSRT 



w ^ ^ 
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REVENDICATIONS 

1°) Fragment d'acide nucleique purifie, caracterise en ce qu'il 
comprend tout ou partie d'une sequence codant pour une sequence retrovirale endo- 
gene humaine, qui presente au moins des motifs retroviraux de type env, repondant a 
5 la sequence SEQ ID NO:l ou a une sequence presentant un niveau d'homologie avec 
ladite sequence SEQ ID NO:l superieur ou egal a 80% sur plus de 190 nucleotides ou 
supeneur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env. 

2°) Fragment d'acide nucleique selon la revendication 1 , caracterise 
en ce qu'il presente a la fois de motifs retroviraux correspondant a un domaine env et 
10 repondant a la sequence SEQ ID NO:l et des motifs retroviraux correspondant a un 
domaine gag et repondant a la sequence SEQ ID NO:2 ou a une sequence presentant 
un niveau d'homologie superieur ou egal a 80% sur plus de 190 nucleotides ou supe- 
rieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env et un 
niveau d'homologie supeneur ou egal a 90% sur plus de 700 nucleotides ou supeneur 
15 ou egal a 70% sur plus de 1200 nucleotides pour les domaines de type gag, lesquels 
motifs ne presentent aucune insertion ou deletion superieure a 200 nucleotides. 

3°) Fragment d'acide nucleique, caracterise en ce qu'il comprend un 
segment d'une sequence selon la revendication 1 ou la revendication 2 et notamment 
les sequence SEQ ID NO:3-24, les sequences nucleiques complementaires et les 
20 sequences inverses complementaires des sequences precedentes ainsi que les 
fragments issus des regions codantes des sequences precedentes conespondant a un 
cadre glissant supeneur ou egal a 14 nucleotides ou leurs sequences complementaires. 

4°) Transcrits, caracterise en ce qu'ils sont generes a partir des 
sequences selon 1'une quelconque des revendications 1 a 3. 
25 5°) Reactif de diagnostic pour la detection differentielle de 

sequences nucleiques endogenes humaines completes ou partielles, presentant des 
motifs retroviraux, selection's parmi les sequences SEQ ID NO:l et/ou SEQ ID 
NO:2, caracterise en ce qu'il est selection^ dans le groupe constitue par les sequences 
SEQ ID NO: 1-50, les sequences nucleiques complementaires et les sequences inverses 
30 complementaires des sequences precedentes, par les fragments nucieotidiques 
capables de definir ou d'identifier les sequences SEQ ID NO:l et/ou SEQ ID NO:2 et 
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toute sequence flanquante ou les chevauchants ainsi que par les fragments issus des 
regions codantes des sequences SEQ ID NO: 1-24, correspondant a un cadre glissant 
superieur ou egal a 14 nucleotides ou leurs sequences complementaires, eventuelle- 
ment marquees avec un marqueur approprie. 

6°) Reactif selon la revendication 5, caracterise en ce qu'il est choisi 
dans les regions situees entre les nucleotides 3065 et 4390 et les nucleotides 6965 et 

9550delaSEQIDNO:3. 

7°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tion^ parmi les sequences SEQ IP NO:30-50 et en ce qu'il est apte a etre utilise 
conune amorce. 

8°) R6actif selon la revendication 5, caracterise en ce qu'il est selec- 
tions parmi les sequences suivantes : 

- un fragment de 1505 nt amplify par le couple d'amorces SEQ ID 

NO:30 et SEQ ID NO:3 1 (amorces GIF et G1R), 

- un fragment de 2529 nt amplify par le couple d'amorces SEQ ID 
NO:38 et SEQ ID NO:39 (amorces E1F et E1R) et en ce qu'il est apte a etre utilise 
comme sonde. 

9°) Procede de detection rapide et differentiel" des sequences 
nucleiques retrovirales endogenes de type env ou env et gag, de leurs variants 
normaux ou pathologiques, par hybridation et/ou amplification genique, realise a partir 
d'un echantillon biologique, lequel precede est caracterise- en ce qu'il comprend : 

(a) une etape dans laquelle l'on met en contact un echantillon biolo- 
gique a analyser avec au moins une sonde selon la revendication 5, la revendication 6 

ou la revendication 8 et 

(b) une etape dans laquelle on detecte par tout moyen approprte le ou 
les produits resultants de l'interaction sequence nucleotidique-sonde. 

10°) Proc6d6 de detection selon la revendication 9, caracteris6 en ce 

qu'il comprend : 

* prealablement a l'etape (a) : 

. une etape de preparation du tissu ou du liquide biologique 

concern^, 
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. une eiape d'extraction de l'acide nucleique a detecter, et 

. au moins un cycle d' amplification genique mis en ceuvre a l'aide 
d'au moins un reactif selon l'une quelconque des revendications 5 a 7 et 

* posteneurement a l'etape (b) : 
5 . une 6tape de comparaison des sequences nucleiques obtenues dans 

ledit echantillon biologique avec les sequences retroyirales endogenes humaines selon 
l'une quelconque des revendications 1 a 3, par tout moyen approprte et notamment par 
sequencage, Southern-blot, coupure de restriction, SSCP ou toute autre mdthode 
permettant d'identifier une insertion ou une delation ou encore une simple mutation 
10 entre les differentes sequences comparers. 

11°) Procede de detection des transcrits selon la revendication 4, 

caract&ise en ce qu'il comprend : 

- le prelevement des ARN messagers provenant de tissus temoins et 

de tissus prelev6 chez des patients et 
j 5 - 1' analyse qualitative et/ou quantitative desdits ARNm, par hybri- 

dation in situ, par dot-blot, Northern-blot, RNAse mapping ou RT-PCR, a l'aide d'un 
reactif de diagnostic selon l'une quelconque des revendications 5 a 8. 

12°) Produits de traduction, caracterises en ce qu'ils sont cod6s par 
une sequence nucl6otidique selon l'une quelconque des revendications 1 a 3. 
20 13°) Peptide, caractense" en ce qu'il est susceptible d'etre exprim6 a 

l'aide d'une sequence nucleotidique selectionnee dans le groupe constitud par les 
sequences SEQ ID NO: 1-24 selon l'une quelconque des revendications 1 a 3, selon les 
combinaisons offertes par l'usage des differents cadres de lecture possibles. 

14°) Peptide selon la revendication 13, caracterise en ce qu'il 
25 englobe les peptides derives comprenant entre 5 et 540 aminoacides. 

15°) Peptide selon la revendication 13 ou la revendication 14, 
caracterise en ce qu'il est s61ectionne" parmi les sequences SEQ ID NO :25-29 et la 
sequence SEQ ID NO :51 . 

16°) Peptide selon l'une quelconque des revendications 13 a 15, 
30 caracterise' en ce qu'il est obtenu a partir des sequences nucleiques selon l'une 
quelconque des revendications 1 a 3, dans lesquelles au moins un codon non-sens peut 
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gtre remplace par un codon codant pour l'un des aminoacides suivants : Phe (F), Leu 
(L), Ser (S), Tyr (Y), Cys (C), Trp (W), Gin (Q), Arg (R), Lys (K), Glu (E) ou Gly 
(G). 

17°) Anticorps, caracterise en ce qu'il est dirige contre Tun ou 
plusieurs des peptides selon Tune quelconque des revendications 1 3 a 1 6. 

18°) Procede de depistage immunologique differentiel de sequences 
retrovirales endogenes humaines de la famille HERV-7q normales ou pathologiques, 
caracterise en ce qu'il comprend la mise en contact d'un echantillon biologique avec 
un anticorps selon la revendication 17, la lecture du resultat etant revelee par un 
moyen approprie\ notamment EIA, ELISA, RIA, fluorescence. 

19°) Proc6de" ^identification et de detection de motifs rStroviraux 
endogenes, anormalement exprimes dans le cadre de pathologies associees au cancer, 
ou de neuropathologies en particulier autoimmunes, au premier rang desquelles la 
sclerose en plaques, caracterise' en ce qu'il comprend l'analyse comparee des sequences 
extraites d'un 6chantillon biologique avec les sequences selon l'une quelconque des 
revendications 12 a 16. 

IS 0 ) Application des sequences selon l'une quelconque des revendi- 
cations 1 a 6 ou 12 a 16 au diagnostic, au pronostic, a revaluation de la susceptibilite 
gen^tique, a toutes maladies humaines induites, innees ou acquises en particulier 
celles a composantes cancereuses, autoimmunes et/ou a incidence neurologique, 
comme la sclerose en plaques, les syndromes associSs et les maladies neurodegenera- 
tives ou intervient tout ou partie des sequences selon l'une quelconque des revendica- 
tions 1 a 5 et des formes endogenes ou exogenes apparentees. 

19°) Sequences nucleiques hybrides, caracterisees en ce qu'elles 
comprennent des sequences ou motifs selon l'une quelconque des revendications 1 a 
5, combin6s avec des sequences ou motifs d'origine endogene ou d'origine ou induits 

de maniere exogene. 

20°) Vecteur recombinant de clonage ou d'expression, caracterise en 
ce qu'il comprend une sequence nucleique selon l'une quelconque des revendications 
la4. 
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de la RNAse H, 

- les regions gag et pol pourraient etre considerees comme jointives 
avec un passage de la region gag a la region pol par un decalage du cadre de lecture. 

La presente invention englobe les sequences appartenant a la famille 
5 HERV-7q telle que definie ci-dessus (presence de la sequence SEQ ID NO:l ou d'une 
sequence homologue ou presence a la fois des sequences SEQ ID NO:l et SEQ ID 
NO:2) et notamment les sequences SEQ ID NO:3-24 ; elle englobe egalement les 
sequences nucleiques compl&nentaires et les sequences inverses complementaires des 
sequences precedentes ainsi que les fragments issus des regions codantes des 
10 sequences precedentes correspondant a un cadre glissant superieur ou egal a 14 
nucleotides ou leurs sequences complementaires. (SEQ ID NO :30-50) 

Ces differents fragments peuvent avantageusement etre utilises 
comme amorces ou comme sondes ; ils s'hybrident specifiquement h une sequence de 
la famille HERV-7q. 

15 Paimi ces fragment?, on peut citer, de preference les fragments 

suivants: 

- un fragment de 1 82 nucleotides repete deux fois, situe en amont du 
domaine gag aux positions 2502-261 1/2613-2865 de la SEQ ID NO:3 ; 

Amorces et sondes specifiques de la region gag 
20 - une amorce GIF, sens, localis^e dans la region amont du domaine 

gag de HERV-7q : 5' GGACCATAGAGGACACTCCAGGACTA 3' 
(SEQIDNO:30); 

- une amorce G1R, anti-sens, localisee dans la region 3' terminale du 
domaine gag : 5' CCTCAGTCCTGCTGCTGGATCATCT 3' (SEQ ID NO :31) 

25 - le fragment de 1505 nt amplifi6 par le couple G1F-G1R est utilise 

afin de generer les sondes aptes k hybrider les differents produits d'amplification des 
PCR; 

- une amorce G2F, sens nich6e : (SEQ ID NO :32) 
5' CCTCCAAGCAGTGGGAGGAAGAGAATT 3' 
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REVENDICATIONS 
1°) Fragment d'acide nucleique purifie, caracterise en ce qu'il 
comprend tout ou partie d'une sequence codant pour une sequence retrovirale endo- 
gene humaine, qui presente au moins des motifs retroviraux de type env, repondant a 
5 la sequence SEQ ID NO:l ou a une sequence presentant un niveau d'homologie avec 
ladite sequence SEQ ID NO:l superieur ou egal a 80% sur plus de 190 nucleotides ou 
superieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env. 

2°) Fragment d'acide nucleique selon la revendication 1, caracterise 
en ce qu'il presente a la fois de motifs retroviraux correspondent a un domaine env et 

10 repondant a la sequence SEQ ID NO:l et des motifs retroviraux correspondant a un 
domaine gag et repondant a la sequence SEQ ID NO:2 ou a une sequence presentant 
un niveau d'homologie superieur ou egal a 80% sur plus de 190 nucleotides ou supe- 
rieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env et un 
niveau d'homologie superieur ou egal a 90% sur plus de 700 nucleotides ou superieur 

15 ou egal a 70% sur plus de 1200 nucleotides pour les domaines de type gag, lesquels 
motifs ne presentent aucune insertion ou deletion superieure a 200 nucleotides. 

3°) Fragment d'acide nucleique, caracterise en ce qu'il comprend un 
segment d'une sequence selon la revendication 1 ou la revendication 2 et notamment 
les sequence SEQ ID NO:3-24, les sequences nucleiques complementaires et les 

20 sequences inverses complementaires des sequences precedentes ainsi que les 
fragments issus des regions codantes des sequences precedentes correspondant a un 
cadre glissant superieur ou egal a 1 4 nucleotides ou leurs sequences complementaires. 

4°) Transcrits, caracterise en ce qu'ils sont generes a partir des 
sequences selon l'une quelconque des revendications 1 a 3. 

25 5°) Reactif de diagnostic pour la detection differentielle de 

sequences nucleiques endogenes humaines completes ou partieUes, presentant des 
motifs retroviraux, selectionnes parmi les sequences SEQ ID NO:l et/ou SEQ ID 
NO:2, caracterise en ce qu'il est selectionne dans le groupe constitue par les sequences 
SEQ ID NO: 1-50, les sequences nucleiques complementaires et les sequences inverses 

30 complementaires des sequences precedentes, par les fragments nucieotidiques 
capables de definir ou d'identifier les sequences SEQ ID NO:l et/ou SEQ ID NO:2 et 



74 

toute sequence flanquante ou les chevauchants ainsi que par les fragments issus des 
regions codantes des sequences SEQ ID NO: 1-24, correspondant a un cadre glissant 
superieur ou egal a 14 nucleotides ou leurs sequences complementaires, eventuelle- 
ment marquees avec un marqueur approprie. 
5 6°) Reactif selon la revendication 5, caracterise en ce qu'il est choisi 

dans les regions situEes entre les nucleotides 3065 et 4390 et les nucleotides 6965 et 
9550 de la SEQIDNO:3. 

7°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tions panni les sequences SEQ ID NO:30-50 et en ce qu'il est apte a etre utilise 
10 comme amorce. 

8°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tion^ panni les sequences suivantes : 

- un fragment de 1505 nt amplifie par le couple d'amorces SEQ ID 
NO:30 et SEQ ID NO:31 (amorces GIF et G1R), 
15 - un fragment de 2529 nt amplifie par le couple d' amorces SEQ ID 

NO:38 et SEQ ID NO:39 (amorces E1F et E1R) et en ce qu'il est apte a etre utilise 
comme sonde. 

9°) Precede de detection rapide et differentiel des sequences 
nucleiques retrovirales endogenes de type env ou env et gag, de leurs variants 
20 normaux ou pathologiques, par hybridation et/ou amplification genique, realise a partir 
d'un echantillon biologique, lequel proc£d£ est caracterise en ce qu'il comprend : 

(a) une etape dans laquelle Ton met en contact un Echantillon biolo- 
gique & analyser avec au moins une sonde selon la revendication 5, la revendication 6 
ou la revendication 8 et 
25 (b) une etape dans laquelle on d&ecte par tout moyen appropriS le ou 

les produits resultants de 1* interaction sequence nucleotidique-sonde. 

10°) Procede de detection selon la revendication 9, caract£ris6 en ce 

qu'il comprend : 

prealablement a T£tape (a) : 
30 . une etape de preparation du tissu ou du liquide biologique 

concerne, 
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. une 6tape d'extraction de l'acide nucleique a detecter, et 

. au moins un cycle d'amplification genique mis en ceuvre a l'aide 
d'au moins un reactif selon Tune quelconque des revendications 5 a 7 et 

* posterieurement a l'etape (b) : 
5 . . une etape de comparaison des sequences nucleiques obtenues dans 

ledit echantillon biologique ayec les sequences retrovirales endogenes humaines selon 
l'une quelconque des revendications 1 a 3, par tout moyen approprie et notamment par 
sequencage, Southern-blot, coupure de restriction, SSCP ou toute autre methode 
permettant d'identifier une insertion ou une deletion ou encore une simple mutation 
10 entre les differentes sequences comparees. 

11°) Precede de detection des transcrits selon la revendication 4, 

caracterise en ce qu'il comprend : 

- le prelevement des ARN messagers provenant de tissus temoins et 

de tissus preleve chez des patients et 
j 5 . l'analyse qualitative et/ou quantitative desdits ARNm, par hybri- 

dation in situ, par dot-blot, Northern-blot, RNAse mapping ou RT-PCR, a l'aide d'un 
reactif de diagnostic selon Tune quelconque des revendications 5 a 8. 

12°) Produits de traduction, caractenses en ce qu'ils sont codes par 
une sequence nucleotidique selon Tune quelconque des revendications 1 a 3. 
20 13°) Peptide, caracterise en ce qu'il est susceptible d'etre exprime a 

l'aide d'une sequence nucleotidique selectionnee dans le groupe constitue par les 
sequences SEQ ID NO: 1-24 selon l'une quelconque des revendications 1 a 3, selon les 
combinaisons offertes par l'usage des differents cadres de lecture possibles. 

14°) Peptide selon la revendication 13, caracterise en ce qu'il 
25 englobe les peptides derived comprenant entre 5 et 540 aminoacides. 

15°) Peptide selon la revendication 13 ou la revendication 14, 
caracterise en ce qu'il est selectionne parmi les sequences SEQ ID NO :25-29 et la 
sequence SEQ ID NO :51. 

16°) Peptide selon l'une quelconque des revendications 13 a 15, 
30 caractense' en ce qu'il est obtenu a partir des sequences nucleiques selon l'une 
quelconque des revendications 1 a 3, dans lesquelles au moins un codon non-sens peut 
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etre remplace par un codon codant pour Tun des aminoacides suivants : Phe (F), Leu 
(L), Ser (S), Tyr (Y), Cys (C), Trp (W), Gin (Q), Arg (R), Lys (K), Glu (E) ou Gly 
(G). 

17°) Anticorps, caracterise en ce qu f il est dirige contre Tun ou 
5 plusieurs des peptides selon Tune quelconque des revendications 13 a 16. 

18°) Precede de depistage immunologique differentiel de sequences 
retrovirales endogenes humaines de la famille HERV-7q normales ou pathologiques, 
caracterise en ce qu'il comprend la mise en contact d'un echantillon biologique avec 
un anticorps selon la revendication 17, la lecture du resultat etant revelee par un 
10 moyen approprie, notamment EIA, ELISA, RIA, fluorescence. 

19°) Proc^de ^identification et de detection de motifs retro viraux 
endogenes, anormalement exprimes dans le cadre de pathologies assoctees au cancer, 
ou de neuropathologies en particulier autoimmunes, au premier rang desquelles la 
sclerose en plaques, caracterise en ce qu'il comprend l'analyse compare des sequences 
15 extraites d'un echantillon biologique avec les sequences selon 1'une quelconque des 
revendications 12 a 16. 

20°) Application des sequences selon Tune quelconque des revendi- 
cations 1 a6ou 12416 au diagnostic, au pronostic, k revaluation de la susceptibilite 
gen^tique, a toutes maladies humaines induites, innees ou acquises en particulier 
20 celles k composantes cancereuses, autoimmunes et/ou a incidence neurologique, 
comme la sclerose en plaques, les syndromes associes et les maladies neurodegenera- 
tives ou intervient tout ou partie des sequences selon Time quelconque des revendica- 
tions 1 k 5 et des formes endogenes ou exogenes apparent6es. 

21°) Sequences nucleiques hybrides, caracteris£es en ce qu'elles 
25 comprennent des sequences ou motifs selon Fune quelconque des revendications 1 k 
5, combines avec des sequences ou motifs d'origine endog&ne ou d'origine ou induits 
de maniere exogene. 

22°) Vecteur recombinant de clonage ou d'expression, caracterise en 
ce qu'il comprend une sequence nucleique selon Tune quelconque des revendications 
30 la4. 
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CC C TGGGGC G GGC TT C C TTTC TGGG ATG AGGGC AAAACGCCTGG AGAT AC AGC AAT T AT CTTGC AACTGAG 

AGAC AGGACTAGCTGGATTTCCTAGGCCGACTAAGAATCCCTAAGCCTAGCTGGGAAGGTGACCACGTCCAC 

C TT T AAAC AC GGGGC T T GC AAC T T AGC T C AC AC CTG AC C AAT C AG AG AGCT C AC T AAAATGC T AATT AGGC A 

A AG AC AGG AG GT AAAG AAAT AGC C AATC AT CTATTGCCT G AG AGC AC AGC AGG AGGG AC AAC AAT C GGG AT A 

TAAACCC AGGCATTCGAGCTGGCAACAGCAGCCCCCCTTTGGGTCCCTTCCCTTTGTATGGGAGCTGTTTTC 

ATGCTA TT TCACTCTATTAAATCTTGCAACTGCACTCTTCTGGTCCATGTTTCTTACGGCTCGAGCTGAGCT 

TTTGCTCACC GTCCACCACTGCTGTTTGCCACCACCGCAGACCTGCCGCTGACTCCCATCCCTCTGGATCCT 

r;r AGGGTGTCCG CTGTGCTCCTGATCCAGCGAGGCGCCCATTGCCGCTCCCAATTGGGCTAAAGGCTTGCCA 

TTGTTCCT GCACGGCTAA GTGCCTGGGTTTGTTCTAATTGAGCTGAACACTAGTCACTGGGTTCCATGGTTC 

TrTTCTGTGAC CCACGGCTTCTAATAGAACTATAACACTTACCACATGGCCCAAGATTCCATTCCTTGGAAT 

C C GT G AGGC CAAG AAC T CC AGGTC AG AG AAT AC G AGGCT T GC C ACC AT CT T GG AAGC GGCC TGCT ACC ATCT 

TGGAAGTGGTTCACCACCATCTTGGGAGCTCTGTGAGCAAGGACCCCCCGGTAACATTTTGGCAACCACGAA 

CGGACATCCAAAGTGGTGAGTAATATTGGACCACTTTCACTTGCTATTCTGTCCTATCCTTCCTTAGAATTG 

GAGGAAAATACCGGGCACTTGTCGGCCAGTTAAAAACGATTAGTGTGGCCACCGGACTTAAGACTCAGGTGT 

GAGGCTATCTGGGGAAGGGCTTTCTAACAACCCCCAACCCTTCTGGGTTGGGGACTTGGTTTGCCTCAAGCC 

AGCTTCCACTTTCAGTTTTCTTGGGGAAGCCGAGGGCCGACTAGAGGCAGAAAGCTGTCGTCCTGAACTCCC 

GGCAGTAGCCGGTTGAGATCATGGTGTAGCCAGAAGTCTCAACAGTCGCCCATGCATGCACCCCTATCTTTC 

CTTCTGACCCATACCTCCTGGGTCCCAACCACAACTTTCTTCAAAGTGTAGCCCCAAAATTCTCCTTACCTC 

TGAATATACTTCCTCTGATCCCTGCCTCCTAGGTACTATTGGTTCAGACTTCCATTTCCTCTAGCAAGTTGT 

ATCTCCAAAGGGATCTAAGGAAGCTCTGCGCTGCGTCCTTAGGCACCTAGGCTATAACCCAGGGAGTCTTAT 

CCCTGGTGTCCCTCCCAATTTAGGCATACAGCTCTTGACATGGGCAGTTATGTAGGACCCACTCCCCACCAC 

CC TT GCCAGGGC C C C AAGTTTGT AAATGGCTG AGGG AAAAGAGAG AC AGAGG AGAGAGAG AGAAATGG AGGA 

GAAAGAGAGAGAGACAGAGAGGAGAGAGAGACAGTGAGAGAGACAGAAGAGAGAGAGAGACAAAGAGGAGAG 

AGAGAGAGTCAAAGAGAGAAAGAAAGAGAAAGAAATAGTAAAAAACAGTGTGCCCTATTCCTTTAAAAGCCA 

GGGTAAATTTAAAACCTGTACTTGATAATTGAAGGTCTTCTCTGTGACCCTATAGCACTCCAATCCACTTTG 

TGGTCAGTGTAAATAAGAGCATAGGCCGAAAGCACTGAGGCCATTGACAACCCGTAGCTTCCCTATCAAAAA 

TC C TT AAC C C AGT AACCCGC AG ATGG ACC AAAT GC ATT C AGT C GGT AGCGC AACTGCTTTGCT AAAAGT AG A 

AAAGTAACTTTTAGAGGAAACCTCATTGTGAGCACACCTCACCTGTTCAGAATTATTCTAATAAAAAAAGCA 

AAAAGGTAGCTTACTAACTCAAAAATCTTAAAGTATGGGGCTATTCTGTTAGAAAAAGGTAATGTAACTCCA 

ACCACTGATAATTCCCTTAACCCAGCAGATTTCCTAACGGGATTTAAATCTTAATTACCATACAAAGGTCCG 

ACCAGACCTAGGCGGAACTCCCTTCAGGACAGGACGATAGATGGTTCCTCCCAGGTGATTGAGGAAAAAAAC 

CACAATGGGTATTCAGTAATTGATACGGGGACTCTTGTGGAAGCAGAGTTAGAAAAATTGCCTAATAACTGG 

TCTCCTCAAACGTGTGAGCTGTTTGCACTCAGCCAAGCCTTAAAGTACTTACAGAATCAAAAGACTATCTCA 

ATCCTGATTCAAAAGGTTAGCTACACCCTCTCTGTAATGCATTTGCATAAGAACTTGTTTATGGGAATGCAT 

CTTCATCCC g CA ^ T r^^Tr=TTnTBaaaTAGGAACCCAGCCCAGCTCTAGGAC TCACCCCT GAGCGC 

r:raaTr:TTGGGCATG CTGGTAAAGGACCACTAGAATCCAGCAGCCCAGACCCCTT TCTTTGTGGTCAAGAAA 

GGCGGGAAAAG GGGTGCAGG ACTGCTACATCGGTAAGCATAACTAATCCGA T AAACAGAGGTCCATGGGTGG 

TTACGCACCCT GGAAAG GAA C TCACCCCTGAGCACAAAGGCAATGTTGGGCACGCTGGTAA A GGACCACTAG 

A A TC C AGC AGCC T GG A CCCC TTT CTTTGT GGT C AAGAGAGGC AGG AAAAC AGGTGC AG G ACT GC AAC AT C AG 

T f; A GC AT AAC T AAT T C G AT AAGC AGAGGT CC AT GGGTGGT GATGCACCCTGG AAAG AA T AAGC ATT AGG AC C 

ATAGAGGACACTCCAGGAC TAAAGCTCATCGGAAAATGACTAGGGTTGCTGGCATCCCTATGTTCTTTTTTC 

AGATGGGAAACGTTCCCCGCAAGACAAAAACGCCCCTAAGACGTATTCTGGAGAATTGGGACCAATTTGACC 

CTCAnTV r. A r- T » a r: a ii a r:&&arr;ArT^ 

TA TAACAC CA TCTTACAGC TA GACCTCTTTTGTAGAAAAGGCAAA TGGAGTGAAGTGCCA TAAGT ACAAACT 
TTCTT TTCA TTAAGAGACAACTCACAA TTA TGTAAAAAGTGTGATTTA TGCCCTACAGGA AGCCTTCAGAGT 
C TACCT CCCTA TCCCAGCA TCCCCGACTCCTTCCCCAACTAA TAAGGACCCCCCTTC AACCCAAA TGG TCCA 
AAAGGA GA TAGACAAAAGGGTAAACAGTGAACCAAAGAGTGCCAA TA TTCCCCAATTA TGACCC CTCCAAGC 
A G TGGGAGG AAGAGAA TTCGGCCCAGCCAGAGTGCA TG TGCCTTTTTCTC TCCCAGACTT AAAGCAAA TAAA 
AACA GACTTAGGTAAA TTC TCAGATAACCCTGATGGCTATATTGA TGTTTTACAAGGGT T AGGACAA TTCTT 
TG A TCTGACA TGGAGAGA TATAA TGTCACTGCTAAATCAGACACTAACCCCAAA TGAGAGAAGTGCCACCAT 
AA CTGC AGCCTGAGAGTTTGGCGA TCTCTGG TA TCTCAGTCA GG TCAA TGA TAGGA TGA CAA CAGAGGAAAG 
AGAA TGATTCCCCACAGGCCAGCAGGCAGTTCCCAGTCTAGACCCTCATTGGGACACAGAA TCAGAACA TGG 
AGA TTGG TGCTGCAGACATTTGCTAACTTGTGTGCTAGAAGGACTAAGGAAAACTAGGAAGAAG TCTA TGAA 
TTACTCAA TGA TGTCCACCA TAACACAGGGAAGGGAAGAAAA TCCTACTGCCTTTCT GGAGAGACTAAGGGA 
GGCA TTGAGGAAGCGTGCCTCTCTGTCACCTGACTCTTCTGAAGGCCAACTAA TCTTAAAGC GTAAGTTTAT 
CACTCAGTCAGCTGCAGACATTAGAAAAAAACTTCAAAAGTCTGCCGTAGGCCCGGA GCAAAACTTAGAAAC 

CC TA TTGAACTTGGCAA CCTCGGTTTTTTA TAA TAG AG A TCAGGAGGAGCA GGCGGAACAGGACAAA CGGGA 
TTAAAAAAAAG GCCACCGCTTTAGTCATGACCCTCAGGCAAGTGGACTTTGGAGGCT CTGGAAAAGGGAAAA 
GCTGGGCA AA TTGAA TGCCTAA TAGGGCTTGCTTCCAGTGCGGTCTACAAGGACACTTTA AAAAAGA TTGTC 
CAAGTAGA AGTAAGCCGCCCCCTCGTCCA TGCCCCTTA TTTCAAGGGAATCACTGGA AGGCCCACTGCCCCA 
nszttACAAAGG TCCTCTGAGTCAGAAGCCACTAACCAGA TGA TCCAGCAGCAGGACTGAG GGTGCCTGGGGC 
AA^f^rATCCCATG CCAT CaCCCTCACAGAGCCCTGGGTATGCTTGACCATTGAG G GC^GGAGGTTGTCT 
r.CTGGACACTGGTGCG GTCTTCTTAGT CTTACTCTTCTGTCCCGGACAACTGTCCTCCAGATC T GTCACTAT 
CTGAGGGGGT CCTAAGACGG GCAGTCACTAGATACTTCTCCCAGCCACTAA G TTATGACTGGGGAGCTTTAT 
TCTTTTCACATGCTT TTCTAATTATGCTTGAAAGCCCCACTACCTTGTTAGGGAGAGAC ATTCTAGCAAAAG 
r A GHGGCC ATTATACAC CT GAACATAGGAGAAGGAACACCCGTTTGTTGTCCCCTG C TTGAGGAAGGAATTA 
ATrPTaAAGTC TGGGCAAC AGAAGGACAATATGGACGAGCAAAGAATGCCCGTCCTGTT C AAGTTAAACTAA 
AGGATTCCACCTCCT TTCCCTACCAAAGGCAGTACCCCCTCAGACCCAAGGCCCAACAAGGA CTCCAAAAGA 
TTGTTAAGGACCTAAAAG C CCAAGGCCTAGTAAAACCATGCAGTAACCCCTGCAGTACTCCAATTTTAGGAG 
TArAriAAACCC AACAGACA GTGGAGGTTAGTGCAAGATCTCAGGATTATCAATGAGGCT G TTGTTCCTCTAT 
AGCCAGCTGTACC TAGCC CTTATACTCTGCTTTCCCAAATACCAGAGGAAGCAGAGTGGTTTA C AGTCCTGG 
ACCTTCAGGATGCCTTCTTCTGCATCCC TGTACATCCTGACTCTCAATTCTTGTTTGCCTTTGAAGATACTT 
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CAAACCCAACATCTCAACTCACCTGGACTATTTTACCCCAAGGGTTCAGGGATAGTCCCCATCTATTTGGCC 5255 

AGG C ATT AGC CC AAG ACTT GAGC C AATC CT C AT ACCTGG AC ACTTGTC CT T C GGT AGGTGG ATGATT T AC T T 5327 

TTGGCCGCCCATTCAGAAACCTTGTGCCATCAAGCCACCCAAGCGCTCTTCAATTTCCTCGCTACCTGTGGC 5399 

TACATGGTTTCCAAACCAAAGGCTCAACTCTGCTCACAGCAGGTTACTTAGGGCTAAAATTATCCAAAGGCA 54 71 

CCAGGGCCCTCAGTGAGGAACACATCCAGCCTATACTGGCTTATCCTCATCCCAAAACCCTAAAGCAACTAA 5543 

GGGGATTCCTTGGCGTAATAGGTTTCTGCCGAAAATGGATTCCCAGGTATGGCGAAATAGCCAGGTCATTAA 5615 

ATACACTAATTAAGGAAACTCAGAAAGCCAATACCCATTTAGTAAGATGGACAACTGAAGTAGAAGTGGCTT 5687 

TCCAGGCCCTAACCCAAGCCCCAGTGTTAAGTTTGCCAACAGGGCAAGACTTTTCTTCATATGTCACAGAAA 5759 

AAACAGGAATAGCTCTAGGAGTCCTTACACAGATCCGAGGGATGAGCTTGCAACCTGTGGCATACCTGACTA 5831 

AGGAAATTGATGTAGTGGCAAAGGGTTGACCTCATTGTTTACGGGTAGTGGTGGCAGTAGCAGTCTTAGTAT 5903 

CTGAAGCAGTTAAAATAATACAGGGAAGAGATCTTACTGTGTGGACATCTCATGATGTGAATGGCATACTCA 5975 

CTGCTAAAGGAGACTTGTGGCTGTCAGACAACTGTTTACTTAAATGTCAGGCTCTATTACTTGAAGGGCCAG 6047 

TGCTGCGACTGTGCACTTGTGCAACTCTTAACCCAGCCACATTTCTTCCAGACAATGAAGAAAAGATAAAAC 6119 

AT AACT GT C AAC AAGT AATTT CT C AAAC CT AT GC C ACTCG AGGGGACCTT TT AG AGGTTC CT TTGAC T GATC 6191 

C CG AC CTC AAC TT GT AT ACTG ATGGAAGTTC C TTTGT AG AAAAAGG ACTT CGAAAAGTGGGGT ATGC AGTGG 6263 

TCAGTGATAATGGAATACTTGAAAGTAATCCCCTCACTCCAGGAACTAGTGCTCAGCTAGCAGAACTAATAG 6335 

C CC TC ACT TGGGC ACT AGAATT AGGAGAAG AAAAAAGGGCAAAT AT AT AT AC AG AC T CT AAAT ATGC TT ACC 6407 

T AGTC CTCC AT GC CC ATGC AGC AAT ATGG AAAG AAAGGGAATTC CT AACTTCT G AG AGAAC AC CT AT C AAAC 6479 

ATC AGG AAGCCAT T AGGAAATT ATT ATT GGCT GT AC AG AAAC C T AAAG AGGT GGC AGTCTT AC AC T GC CGGG 6551 

GTC AT C AG AAAGG AAAGGAAAGGG AAAT AG AAG AGAACTGC CAAGC AGAT ATT G AAGCC AAAAG AGC TGC AA 6623 

GGCAGGACCCTCCATTAGAAATGCTTATAAAACAACCCCTAGTATAGGGTAATCCCCTCCGGGAAACCAAGC 6695 

CCCAGTACTCAGCAGGAGAAACAGAATGGGGAACCTCACGAGGACAGTTTTCTCCCCTCGGGACGGCTAGCC 6767 

ACTGAAGAAGGGAAAATACTTTTGCCTGCAACTATCCAATGGAAATTACTTAAAACCCTTCATCAAACCTTT 6839 

C ACTT AGGC ATCG AT AGC AC C CAT CAG ATGGC CAAATCATT ATTT ACT GGAC CAGGCCTTTTC AAAAC T ATC 6911 

AAGCAGATAGTCAGGGCCTGTGAAGTGTGCCAGAGAAATAATCCCCTGCC TTATCGCCAAGCTCCTTCAGGA 6983 

GAACAAAGAACAGGCCATTACCCTGGAGAAGACTGGCAACTGATTTTACCCACAAGCCCAAACCTCAGGGAT 7055 

rrCAGTArcrACrAGrCTGGGrAGArACrrrCACGGGrrGGGCAG^GGCCrrCCCCrGTAGGACAGAAAftGG 7127 

CCCAAGAGGTAATAAAGGCACTAGTTCATGAAATAATTCCCAGATTCGGACTTCCCCGAGGCTTACAGAGTG 7199 

ACAATAGCCCTGCTTTCCAGGCCACAGTAACCCAGGGAGTATCCCAGGCGTTAGGTATACGATATCACTTAC 7271 

actgcgcctgaaggccacagtcctcagggaaggtcgagaaaatgaatgaaacactcaaaggacatctaaaaa 734 3 

agcaaacccaggaaacccacctcacatggcctgctctgttgcctatagccttaaaaagaatctgcaactttc 7415 

cccaaaaagcaggacttagccca tacgaaa tgctgta tggaaggcccttca taaccaa tgaccttgtgcttg 7487 

acccaagacagccaacttagttgcagacatcacctccttagccaaatatcaacaagttcttaaaacattaca 7559 

aggaaccta tccctgagaagagggaaaagaacta ttccacccttgtgaca tggta ttagtcaagtcccttcc 7631 

ctctaattccccatccctagatacatcctgggaaggaccctacccagtcattttatctaccccaactgcggt 7703 

taaagtggctggagtggagtcttggatacatcacacttgagtcaaatcctggatactgccaaaggaacctga 7775 

aaatccaggagacaacgctagctattcctgtgaacctctagaggatttgcgcctgctcttcaaacaacaacc 7847 „ 

agg agg aaagt aact aaaa tca taaa tcccca tggccctccctta tca ta tttttctctttactgttctttt 7919 

accctctttcactctcactgcaccccctccatgccgctgtatgaccagtagctccccttaccaagagtttct 7991 

ATGGAGAATGCAGCGTCCCGGAAATATTGATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCCACCTT 8063 

CACTGCCCACACCCATATGCCCCGCAACTGCTATCACTCTGCCACTCTTTGCATGCATGCAAATACTCATTA 8135 . 

T TGGACAGGAAAAA TGA TTAA TCCTAGTTG TCCTGGAGGACTTGGAGTCACTGTCTGTTGGACTTACTTCAC 8207 

CCAAACTGGTATGTCTGATGGGGGTGGAGTTCAAGATCAGGCAAGAGAAAAACATGTAAAAGAAGTAATCTC 8279 

CCAACTCACCCGGGTACATGGCACCTCTAGCCCCTACAAAGGACTAGATCTCTCAAAACTACATGAAACCCT 8351 domaine 

CCGTACCCATA CTCGCCTGGTAAGCCTATT TAATACCACCCTCACTGGGCTCCATGAGGTCTCGGCCCAAAA 8423 

CCCTACTAACTGTTGGATATGCCTCCCCCTGAACTTCAGGCCATATGTTTCAATCCCTGTACCTGAACAATG 8495 env 

GAACAACTTCAGCACAGAAA TAAACACCACTTCCGTTTTAGTAGGACCTCTTGTTTCCAA TCTGGAAA TAA C 8567 

CCATACCTCAAACCTCACCTGTGTAAAA TTTAGCAA TACTACA TACACAACCAACTCCCAA TGC A TCAGGTG 8639 

GGTAACTCCTCCCACACAAATAGTCTGCCTACCCTCAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCG 8711 

rTGTTTGAA rGG CTCTrCAGAATCTA TGTGCTTCCTCTCA TTCTTAGTGCCCCCTA TGACCATCTACA^CT^A 8 783 

AC AAG A TTTA TACAGTTA TGTCATATCTAAGCCCCGCAACAAAAGAGTACCCA TTCTT CCTTTTGTTA TAGG 8855 

AGCAGGAGTGCTAGGTGCACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACT ACAAACT 8927 

A TCTCAAGAACTAAA TGGGGACA TGGAACGGGTCGCCGACTCCCTGGTCACCTTGCAAGA TCAACTTAACTC 8999 

CCTAGCAGCAGTAGTCCTTCA AAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGGGAACCTGTTT 9071 

A TTTTTAGGGGAAGAA TGCTGTTA TTATGTTAA TCAA TCCGGAA TCGTCACTGAG AAAGTTAAAG AAA TTCfi 9143 

AGATCGAATACAACGTAGAGCAGAGGAGCTTCGAAACAC TGGACCCTGGGGCCTCCTCAGCCAATGGATGCC 9215 

CTGGA TTCTCCCCTTCTTAGGACCTCTAGC AGCTA TAA TATTGCTACTCCTCTTTGGACCCTGTA TCTTTAA 9287 

CCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGCT GTAAAACTACAAATGGAG CCCAAGATGC AGTCCAA 9359 

GACTAAGATCTACCGCAGACCCCTGGACCGGCCTGCTAGCCCACGATCTGATGT TAATGACATCAAAGGCAC 9431 

CCCTCCTGAGGAAA TC TCA GC TGCACAA CC TC TACTACGCCCCAA T TCAGCA GGAAGCAGTT AG AGCGGT C 9503 

TCGGCCAACCTCCCCAACAGCACTTAGGTTTTCCTGTTGAGATGGGGG ACTGAGAGACAGGACTAGCTGGAT 9575 

TTCCTAGGCTGACTAAGAATCCCTAAGCCTAGCTGGGAAGGTGACCACATCCACCTTTAAACACGGGGCTTG 9647 

C AACT T AGC T C AC AC C T G AC C AAT C A G AGAGC TC ACT AAAAT GC T AATT AGGC AAAG ACAGG AGGT AAAGAA 9719 

ATAGCCAATCATCTATTGCCTGAGAGCACAGCAGGAGGGACAATGATCGGGATATAAACCCAAGTCTTCGAG 9791 

CCGGCAACGGCAACCCCCTTTGGGTCCCCTCCCTTTGTATGGGAGCTCTGTTTTCATGCTATTTCACTCTAT . 9863 region 

TAAATCTTGCAACTGCACTCTTCTGGTCCATGTTTCTTACGGCTTGAGCTGAGCTTTCGCTCGCCATCCACC 9935 r6p6t6e 

ACTGCTGTTTGCCGCCACCGCAGACCCGCCGCTGACTCCCATCCCTCTGGATCATGCAGGGTGTCCGCTGTG 10007 Rl 

CTCCTGATCCAGCGAGGCACCCATTGCCGCTCCCAATCGGGCTAAAGGCTTGCCATTGTTCCTGCATGGCTA 10079 

AGTGCCTGGGTTCATCCTAATTGAGCTGAACACTAGTCACTGGGTTCCATGGTTCTCTTCTGTGACCCACAG 10151 

CTTCTAATAGAGCTATAACACTCACCGCATGGCCCAAGGTTCCATTCCTTGAATCCATAAGGCCAAGAACCC 10223 

CAGGTC AGAGAAC AC GAGGCTTGCCACC AT CTTGGGAGCT CTGTGAGCAAGGACCCCCAAGT AACACAAC C A 10295 

TGAGGGTGCAAATGCATGGGCCACTAATGGTAGAGCAAGAAAACAGAAGGGCCCTGGTTCCTCGAAGGCATC 10367 

AGTGAGCTGAAATGCCTGCCCTGGATGTCCTATTCCTAGGTGTTTTTCTGCCTGAAGCAGATTAAACCCTTT 10439 

GTTCACTTCTCCAAGTAGGGCTTCTATTACAGCCCAAATCAATCCCCACCCCAGATGACAT 10500 
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ACTGAGAGACAGGACTAGCTGGATTTCCTAGGCCGACTAAGAATCCCTAAGCCTAGCTGGGAAGGTGACC 



ACTGAGAGACAGGACTAGCTGGATTTCCTAGGCTGACTAAGAATCCCTAAGCCTAGCTGGGAAGGTGACC 

ACGTCCACCTTTAAACACGGGGCTTGCAACTTAGCTCACACCTGACCAATCAGAGAGCTCACTAAAATGC 
. _ ...*,*.*,•>.*•*•*•••.•••*••*••••••••••••••••••••*••*••*•*••••••••••• 

ACATCCACCTTTAAACACGGGGCTTGCAACTTAGCTCACACCTGACCAATCAGAGAGCTCACTAAAATGC 
TAATTAGGCAAAGACAGGAGGTAAAGAAATAGCCAATCATCTATTGCCTGAGAGCACAGCAGGAGGGACA 

TAATTAGGCAAAGACAGGAGGTAAAGAAATAGCCAATCATCTATTGCCTGAGAGCACAGCAGGAGGGACA 
ACAATCGGGATATAAACCCAGGCATTCGAGCTGGCAACAGCAGCCCCCCTTTGGGTCCCTTCCCTTTGTA 
: ::::::::::::::::: : ::::;:::::::: : : : : : : : : :::::::::: :::::::::: 
ATGATCGGGATATAAACCCAAGTCTTCGAGCCGGCAACGGCAACCCCC-TTTGGGTCCCCTCCCTTTGTA 
TGGGAGCT — GTTTTCATGCTATTTCACTCTATTAAATCTTGCAACTGCACTCTTCTGGTCCATGTTTCT 
:::::::: :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: 
TGGGAGCTCTGTTTTCATGCTATTTCACTCTATTAAATCTTGCAACTGCACTCTTCTGGTCCATGTTTCT 
T AC GGCTCGAGCTGAGCTTTTGCTCACC GTC CACC ACTGCTGTTTGCCACC ACC GCAGACCTGC CGCTG A 
.*•••*•••*•■ ■»•••..••••••••••«* •••••••• 

TACGGCTTGAGCTGAGCTTTCGCTCGCCATCCACCACTGCTGTTTGCCGCCACCGCAGACCCGCCGCTGA 
CTCCCATCCCTCTGGATCCTGCAGGGTGTCCGCTGTGCTCCTGATCCAGCGAGGCGCCCATTGCCGCTCC 



CTCCCATCCCTCTGGATCATGCAGGGTGTCCGCTGTGCTCCTGATCCAGCGAGGCACCCATTGCCGCTCC 
CAATTGGGCTAAAGGCTTGCCATTGTTCCTGCACGGCTAAGTGCCTGGGTTTGTTCTAATTGAGCTGAAC 

**** #•*•»••*•#••***••*■•••••*••• Ill I IIIZZ******!!** 

CAATCGGGCTAAAGGCTTGCCATTGTTCCTGCATGGCTAAGTGCCTGGGTTCATCCTAATTGAGCTGAAC 
ACTAGTCACTGGGTTCCATGGTTCTCTTCTGTGACCCACGGCTTCTAATAGAACTATAACACTTACCACA 



ACTAGTCACTGGGTTCCATGGTTCTCTTCTGTGACCCACAGCTTCTAATAGAGCTATAACACTCACCGCA 
TGGCCCAAGATTCCATTCCTTGGAATCCGTGAGGCCAAGAACTCCAGGTCAGAGAATACGAGGCTTGCCA 
::::::::: :::::::::::: : : : : : : ::::::::::: ::::::::::::: ::::::::::::: 
TGGCCCAAGGTTCCATTCCTTG-AATCCATAAGGCCAAGAACCCCAGGTCAGAGAACACGAGGCTTGCCA 
CCATCTTGGAAGC 



CCATCTTGGGAGC 
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IPMALPYHIFLFTVLLPSFTLTAPPPCRCMTSSSPYQEFLWRMQRPGNIDAPSYRSLSKG 

TPTFTAHTHMPRNCYHSATLCMHANTHYWTGKMINPSCPGGLGVTVCWTYFTQTGMSDGG 

GVQDQAREKHVKEVISQLTRVHGTSSPYKGLDLSBCLHETLRTHTRLVSLFNTTLTGLHEV 

SAQNPTNCWICLPLNFRPYVSIPVPEQWNNFSTEINTTSVLVGPLVSNLEITHTSNLTCV 

KFSNTTYTTNSQCIRWVTPPTQIVCLPSGIFFVCGTSAYRCLNGSSESMCFLSFXVPPMT 

IYTEQDLYSYVISKPRNICRVPILPFVIGAGVLGALGTGIGGITTSTQFYYKLSQELNGDM 

E R V AD S LVTLQDQLNS IJ^VVLQNRRALDLLT AERGGT CLFLGE E C CYYVNQ S G IVTE KVKE I RPR J QRR 

AEEIJOTGPWGIXSQWMPWILPFLGPLAAIIIJ^ 

RRPLDRP AS PRSDVN DIKGT P PEEI S AAQPLLRPNS AGSS 

FIGURE 4 



1 ) NSLAAWLQNRRALDLLTAESGGTFLFLEEKC 

2 ) NSLAAWLQNRRALDLLTAERGGTCLFLGEEC 

3 ) DSLAAVTLQNHQGLDLLTAEKGGLCYFLGEDC 

4 ) DSLAAVTLQNHQGLDLLIAEKGGLCTFLGEEC 

5 ) DSLAAVTLQNCRGLDLLTAEKGGHYTFLGEEC 

6) LQNRRGL DLL FLKEGGLC 

7 ) DSLAKWLQNRRGLDLLT AEQGG I CLALQEKC 



FIGURE 5 



TS FVEKANGVKCHKYKLS FHXETTHNYVKS VI YALQEAFRVYLP ILPAS PTPS PTNKDPPS TQMVQKE IDKRVNS 

EPKSANIPQIjXPLQAVGGREFGPARVHVPFSLPDLKQIKTDLGKFSDNPIXSYIDVLQGLGQFFDLTWRDIMSL^ 

QTLTPNERS AT I TAAXEFGDLWYLS QVNDRMTTEEREXFPTGQQAVPS LDPHWDTES EHGDWC CRHLLTCVLEGL 

RKTRKKSMNYSMMSTITQGREENPTAFLERL 

EQNLETLLNIATSVFYNRIX^EEQAEQDK^ 

RLSKXKXAAPSSMPLISRESLEGPLPQGTKVLXVRSHXPD/SSSRT 
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CCTGGCACTCCTGAGGGAAGTATAAATTATAACACCATCTTACAGCTAGACCTCTTTTGTAGAAAAGGCA 

CCTGGC-CTCCTGAGGGAAGTATAAATTATAACACCATCTTACAGCTAGACCTCTTTTGTAGAAAAGAAG 
-CAAATGGAGTGAAGTGCCATAAGTACAAACTTTCTTTTCATTAAGAGACAACTCACAATTATGTAAAAA 



GCAAATGGAGTGAAGTGCCATATGTACAAACTTTCTTTTCATTAAGAGATAACTCCCAATTATGTAAAAA 
GTGTGATTTATGCCCTACAGGAAGCCTTCAGAGTCTACCTCCCTATCCCAGCAT — CCCCGACTCCTTCC 

GTGTGATTTATKCCTA^GGAAGCCCTCAGA 

CCAACTAATAAGGACCCCCCTTCAACCCAAATGGTCCAAAAGGAGATAGACAAAAGGGTAAACAGTGAAC 



CCAACTAATAAGGACCCCCCTTCAACCCAAATGGTCCAAAAGGAGATAGACAAAGGGGTAAACAATGAAC 
CAAAGAGTGCCAATATTCCCCAATTATGACCC-CTCCAAGCAGTGGGAGGAAGAGAATTCGGCCCAGCCA 

CAAAGAGTGCCAATATTACACGATTAT-ACTCGCTCCAAGCAGTGGGAGGA-GA-ATTT-GGCCCAGCCA 
GAGTGCATGTGCCTTTTTCTCTCCCAGACTTAAAGCAAATAAAAACAGACTTAGGTAAATTCTCAGATAA 

^GTG^TGTACCTTTTTCTCTCTCAGATTTAAAGCAAATTAAAATAGACCTAGGTAAATTCTCAGATAA 
CCCTGATGGCTATATTGATGTTTTACAAGGGTTAGGACAATTCTTTGATCTGACATGGAGAGATATAATG 

CCCTGATG^TATATTGATGTTTTACAAGGGTTAGGACAATCCTTTGATCTGACATTC 
TCACTGCTAAATCAGACACTAACCCCAAATGAGAGAAGTGCCACCATAACTGCAGCCTGAGAGTTTGGCG 
: :::::::::::::::::::::::::::::: : :::::: ::::::: ::::::::::::;:::::: 
TTACTGCTAAATCAGACACTAACCCCAAATGAAAAAAGTGCTGCCATAACAGCAGCCTGAGAGTTTGGCG 
ATCTCTGGTATCTCAGTCAGGTCAATGATAGGATGACAACAGAGGAAAGAGAATGATTCCCCACAGGCCA 

: ::::::::::::::::::::::::::::::::::::::::: :::::::::::::::::::::::::: 
AACTCTGGTATCTCAGTCAGGTCAATGATAGGATGACAACAGATGAAAGAGAATGATTCCCCACAGGCCA 
GCAGGCAGTTCCCAGTCTAGACCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCTGCAGACAT 
:::::::::::::::: :::::::::::: ::::::::::::::::: ::::::::::::: ::::::: 
GCAGGCAGTTCCCAGTGTAGACCCTCATTAGGACACAGAATCAGAACTTGGAGATTGGTGCCACAGACAT 
TTGCTAACTTGTGTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGTCTATGAATTACTCAATGATGTCCA 

::::::::::: ::::::::::::::::::::::::::::::::: : :::::::: :::::::::::: 
TTGCTAACTTGCGTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGCCCATGAATTATTCAATGATGTCCC 
C C AT AAC AC AGGG AAGGGAAG AAAATCCT ACTGC CTTTCTGGAGAGAC T AAGGG AGGC ATTGAGGAAGC G 

CTATAACA»GTCAAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAAGGATTGAGGAAGCA 
TGCCTCTCTGTCACCTGACTCTTCTGAAGGCCAACTAATCTTAAAGCGTAAGTTTATCACTCAGTCAGCT 
• .••••••»••••••• • jjjjjjjjiiiijtcitii** iriti.i. i. ■•••••*»•••• 

TACCTCCCTGTCACCTGACTC 

GCAGACATTAGAAAAAAACTTCAAAAGTCTGCCGTAGGCCCGGAGCAAAACTTAGAAACCCTATTGAACT 
KAGAGATTAAGAAAAAACTTCAAAAGTATGCCTTAGGCCCAGAGCAAM 

TGGCAACCTCGGTTTTTTATAATAGAGATCAGGAGGAGCAGGCGGAACAGGACAAACGGGATTAAAAAAA 

TGGC AAC CT CAGTTT TTT AT AAT AG AGATC AGG AAG AGC AGG - GG AATGGG AC AAAT GGG AT AAAAAAAA 
A GGCCACCGCTTT AGTCATGAC CCTCAGGCAAGTGGACTTTGGAGGCT CT GGAAAAGGGAAAA 

AAAAAAAAGGTGACTGCTTTACTCGTGGCCCTCAGGCAAATG 

GCTGGGCAAATTGAATGCCTAATAGGGCTTGCTTCCAGTGCGGTCTACAAGGACACTTTAAAAAAGATTG 
: : : : ::::::::::::::::: :::::::::::: : : : : ::::::::::::::::::::::::::::: 
GCT G AGC AAATT G AATGCC T AAC AGGGC T T GC TT C T AGT GTGGT CT ACAAGGAC ACT TT AAAAAAG ATT G 
TCCAAGTAGAAGTAAGCCGCCCCCTCGTCCATGCCCCTTATTTCAAGGGAATCACTGGAAGGCCCACTGC 

TCCAAGTAGAAACWVKT^ 

CCCAGGGGACAAAGGTCCTCTGAGTCAGAAGCCACTAACCAGATGATCCAGCAGCAGGACTGAGGGTGCC 

:::::: : : ::::::::::::::::::::::::::::::::: :::::::::::::::::::: : = = : 
CCCAGGAGATGAAGGTCCTCTGAGTCAGAAGCCACTAACCAGATAATCCAGCAGCAGGACTGAGGATGCC 
TGGGGCAAGCGCCATCCCATGCCATCACCCTCACAGAGCCCTGGGTATGCTTGACCATTGAGGGCCAGGA 

CAGGGC AAGC GC CAGCC C ATGCCAT CACC CTC AC AG AGC C T TGGGT AT GCT T GAC CATT G AGGGC CAGGA 

GGTT GTCTCCTGGACACTGGTGCGGTCTTCTTAGTCTTACTCTTCTGTCCCGGACAACTGTCCTCC 

: : : : : : : : : ::::::::::: : : : : : : : ::::::::::: :::::: ::::::::::::: : 
GGTTCACTGTCTCTTGGACACTGGTATGGCCTTCTCAGTCTTACTCTCCTGTCCTGGACAACTGTCCTTC 
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01/ TAAATCCCCATGGCCCTCCCTTATCATATTTTTCT 

02/ TAAATCCCC-TGGCCCTCCCTTATCATATTTTTCT 

03/ TAAATCCCCATGGCCCTCCCTTATCATATTTTTCT 

04/ TAGATCCTCATGGCCCTCC-TTGTCATATTTTTTT 



01/CTTTACTGTTCTTTTA-CCCTCTTTCACTCTCACTGCACCCCCTCCATGCCGCTGTATGACC 
02/CTTTACTGTTCTCTTACCCCCCTTTCACTCTCACTGCACCCCGTCCATGCCACTGCACCCCC 
03/CTTTACTGTTCTCTTA-CCCCCTTTCTCTCTCACTGCACCCCCTCCATGGTGCTGTACAACC 
04/CTTTACTGTTCTCTTA-CCCCCTTTCACTCTCACTGAACCCCCTCCATGCCACTGTACTACC 

0 1 /AGT AGCTCCCCTTACCAAGAGTTTCTATGGAGAATGCAGCGT 

02/GTCCATGCCCGTCTCATGCCAGTAGCTCCCCTTAGCAAGAGTTTCTATGGAGAATGCAGCGT 
03/AGC AGCTCCCCTTACCAAGAGTTTCTATGAAGAATGCGGCTT 

0 4 /AGT AGCTCCCATTACCAAGAGCTTCTATGGACAATGCGGCTT. 

0 1 /CCCGGAAATATTGATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCCACCTTCACTGC 
02/CCCGGAAATATTGATGCCCCATTGTATAGGAGTTTATCTAAGGGAACCCCCACCTTCACTGC 
0 3/CCCAGAAATATTGATGCCCCATCAAATAGGAGTTTACCTAAAGGAAACTCCACCTTCACTGC 
0 4 /CCTGGAAATATTGATGACCCATCGTATAGGAGTTTTTCTAAAGGAAACCCCATTTTCACCAC 

0 l/CCACACCCATATGCCCCGCAACTGCTATCACTCTGCCACTCTTTGCATGCATGCAAATACTC 
02/CCACACCCATATGCCCCACAACTGCTATAACTCTGCCACTCTTTGCATGCATGCAAATACTC 

0 3 /CCACACCCATATGCCCCACAACTGCTATAACTCTGCCACTCTTTGCATGCATGCAAATACTC 
04 /CCACACCTATATGACCC ■ * 

0 1 /ATTATTGGACAGGAAAAATGATTAATCCTAGTTGTCCTGGAGGACTTGGAGTCACTGTCTGT 

0 2 /ATTATTGGACAGGAAAAACGATTAATCCCAGTTGTCCTGGAGGACTTGGAG 

0 3 / ATTATTGGACAGGGAAAATGATTAATCCTAGTTGTCCTGGAAGACTTGGAGCCACTGTCTGT 

04/- 

0 1/TGGACTTACTTCACCCAAACTGGTATGTCTGATGGGGGTGGAGTTCAAGATCAGGCAAGAGA 
0 2 / — GACTCACTTCACTCATACCAGTATGTCTGATGGGGGTGGAGTTCAAGATCAGGCAACAGA 

0 3/CGGACTTACTTCACCCATACTGGTATGTCTGAGGGGGGTGGAGTTCAAGATCAGGCAAGAGA 
04/ ■ " 

0 1 /AAAACATGTAAAAGAAGTAATCTCCCAACTCACCCGGGTACATGGCACCTCTAGCCCCTACA 
0 2 / AAAACACATAAAGGAAGTAATCTCCCAACTGACCTGGGTACATAGCACCCCTGGCCCCTACA 

0 3 / AAAACATGTAAAGGAAGTAACCTCCCAACTGACCCGGGTACATAGCACCCCTAGCCCCTACA 
04/ :— > ' 

0 1 /AAGGACTAGATCTCTCAAAACTACATGAAACCCTCCGTACCCATACTCGCCTGGTAAGCCTA 
0 2 /AAGGACTAGATCTCTCAAAACTACATGAAACCCTCCATACCCATACTGGCCTGGTAAGCCTA 

0 3 /AAGGACTAGATCTCTTAAAACTACATGAAACCCTCCATACCCATACTTGCCTGGTAAGCCTA 
04/ — ■ — ~ ^ " 

0 1 /TTTAATACCACCCTCACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTAACTGTTGGAT 
0 2 /TTTAATACCACCCTGACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTAACTGTTGGAT 

0 3 / TTTAATACCACCCTCACTGGGCTCCATGAGGTCTCGGTCCAAAACCCTACTAACTGTTGGTT 
04/ ' ~ 

0 1 / ATGCCTCCCCCTGAACTTCAGGCCATATGTTTCAATCCCTGTACCTGAACAATGGAACAACT 
0 2 /GTGCCTCCCCCTGCACTTTAGGCCATACATTTCAATCCCTATACCTGAACAATGGAACAACT 
0 3 /GTGCCTCCCCCTGTATTTCAGGCCATGCATTTCAATCCCTGT ACCTGAACAATGGAACAACT 
0 4 / TGCACTTCAGGCCATACATTTCAAT CCCTGTA 
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0 1 /TCAGCACAGAAATAAACACCACTTCCGTTTTAGTAGGACCTCTTGTTTCCAATCTGGAAATA 

02/TCAGCACAGAAATAAACACCACTTCTGTTTTAGTAGGTCCTC TTTCCAATCTGGAAATA 

0 3 /ACAGCACAGAAATAAACACCACTTCCGTTTTAGTAGGACCTCTTGTTTCCAATCTGGAAATA 



0 1 / ACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAAT ACTACATACACAACCAACTCCCA 
02/ACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTATAGACACAGCCAACTCCCA 

0 3 / ACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTGTAGACACAACCAACTCCCA 

04/ 

01/ATGCATCAGGTGGGTAACTCCTCCCACACAAATAGTCTGCCTACCCTCAGGAATATTTTTTG 
02/ATGCATCAGGTGGGTAACTCCTCCCACACGAATAGTCTGCCTACCCTCAGGAATATTTTTTG 
03/ATGCATCAGGTGGGTAACTCCTCCCACACGAATAGTCTGCCTACCCTCAGGAATATTTTTTG 

04/ 

01/ TCTGTGGTACCTCAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCCTCTCA 
02/TCTGTGGTACCTCAGCCTATCATTGTTTGAATGGCTCTTCAGAATCTGTGTGCTTCCTCTCA 
03/TCTGTGGTACCTTAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCCTCTCA 

04/ 

01/ TTCTTAGTGCCCCCTATGACCATCTACACTGAACAAGATTTATACAGTTATGTCATATCTAA 

02 / TTCTTAGTGGCCCCTATGCCCATCTACACTGAACAAGATTTATACAATCATGTCATACCTAA 
03/TTCTTAGTGCCCCC-ATGACCATTTACACTGAACAAGATTTATACAATTATGTTGTACCTAA 

04/ ' 

01/GCCCCGCAACAAAAGAGTACCCATTCTTCCTTTTGTTATAGGAGCAGGAGTGCTAGGTGCAC 
02/GCCCCGCAACAAAAGAGTACCCATTCTTCCTTTTGTTATTGGAGCAGGAGTGCTAGGCGGAG 
03/GCCCCACAACAAAAGAGTACTCATTCTTCCTTTTGTTATCGGAGCAGGAGTGCTAGGTGGAC 

04/ " 

01/TAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAAACTATCTCAAGAA 
02 / TAGCTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAAACTGTCTCAAGAA 
03/TAGGTTCTGGCATTGGCGGTACCACAACCTCTACTCAGTTCTACTACAAACTATCTCAAGAA 

04/ 

0 1 / CTAAATGGGGACATGGAACGGGTCGCCGACTCCCTGGTCACCTTGCAAGATCAACTTAACTC 
02/CTTAAAGGTGACATGGAATGGGTCGCTGATACCCTGGTCACCTTGCAAGATCAACTTAACTC 
0 3 /CTCAATGGTGACATGGAATGGGTTGCCGACTCCCTGGTCACCTTGCAAGATCAACTTAACTT 

04/ ~ 

0 1/CCTAGCAGCAGTAGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGG 
02/CCTAGCAGCAGTAGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCGGAAAGCGGGG 
0 3 / CCTAGCATCAGT AGTCCTTCAAAATTGAAGAGCTTTAGACTTGCTAACCTCTGAAAGAGGGG 

04/ - 

0 1/GAACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTT 

02/GAACCTTTTTATTTTTAGAGGAAAAATGCTGTTGTTATGTT 

03/GAAGCTGTTTATTTTTAGGGGAAGAATGTTGTTATTATGTTATTTTAGCGGAAGAATGTTGT 

04/ 

0 ! / AATCAATCCGGAATCGTCACTGAGAAAGTTAAAGAAATTCGAGATCGAATACA 

02/ AATCAATCCGGAATCATCACCGAGAAAGTTAAAGAAATTCAAGGTCGAATATA 

0 3 / TAT T ATGT T AATC AATCC TGAAT TGTC AC AG AGAAAGTT GAAGAAATTCGAG AT T G AAT ACA 
04/ 

0 1 /ACGTAGAGCAGAGGAGCTTCGAAA-CACTGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCT 
0 2 /ACGTAGAGCAAAGGAGCTGCAAAA-CACTGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCT 
0 3 / ACGTAGAACAGAGGAGCTTCAAAAACACCAGACCCTGGGGCCTCCTCAGCCAATGGATGCCCT 

04/ 
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Ol/GGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTCTTTGGACCCTGTA 
02/GGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGTTACTCCTCTTTGGACCCTGTA 
03/GGATTCTCCCCTTCTTAGGATCTCTAGCAGCTCTAATATTGATACTCCTCTTTGGACCCTGTA 

04/ ~~ 

0 1 /TCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGCTGTAAAACTA; 

0 2 /TCTTTAACCTCCTTGTTAAGTTTGTCTTTTCCAGAATCGAAGCAGTAAAACTACAAATCGTTC 

0 -i /TCTTTAACCTCCTTGT tAAGTTTGTCTCTTCCAGAATCAAAGTTGTAAAGCTACAAATCGTTC 
04/TCTTTAACCTCCTTGTTAAGCTTGTCTCTTGCAGAATCGAAGCTGTAAAACTACAAATGCTTG 

0 1 /— CAAATGGAGCCCAAGATGCAGTCCAAGACTAAGATCTACCGCAGACCCCTGGACCGGCCTG 

0 2 /TTCAAATGGAGCCCCAGATGCAGTCCATGAGTAAAATCTACCACGGACCCCTGGACCGGCCTG 
03/TTCAAATGGAACCCCAGATGAAGTCCATGACTAAGATCTACCGTGGACCCCTGGACCGGCCTA 
04/TTAAAATAGAGCCCCAGATGCAGTCCATGGCTAAGATCTACCACGGACCCCTGGACCGGCCTG 

0 1 /CTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCGCTCCTGAGGAAATCTCAGCTGCAC 
0 2 /CTAGCCCATGCTCTGATGTTAATGACATCAAAGGCACCCCTCCCGAGGAAATCTCAACTGCAC 
03/CTAGCCCATGCTCCAATTGTAATGATATCGAACGCACCCCTCCCGAGGAAATCTCAACTGCAC 

0 4 /CTAGCCCATGCTCTGATGTTGATGACATTGAAGGCACGGCTTCCGAGGAAATCTCAACTGCAC 

0 1 /AACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCCCC 
0 2 /AACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGTGGTTGTTGGCCAACCTCCCC 
0 3 /AACCCCTACTATGCCCCAATTCCGCAGGAAGCAGTTAGACTGGTCGTCAGCCAACCTCCCC 



04/GACCCCTAi 



.CTACACCCCAATTTAGCGGGAAGCAATTAGAGCAGCCTATGGCCACCTCCCC 
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CTTCCCCAACTAATAAGGACCCCCCTTTCAACCCAAACAGTCCAAAAGGACATAGACAAAGGA 
CTTCCCCAACTAATAAGGACCCCCCTTTCAACCCAAACAGTCCAAAAGGACATAGACAAAGGA 
CTTCCCCAACTAATAAGGACCCCCC-TTCAACCCAAATGGTCCAAAAGGAGATAGACAAAAGG 
CTTCTCCAACTAATAAGGACCCCCC-TTCAACCCAAATGGTCCAAAAGGAGATAGACAAAGGG 
CTTCCCCAAATAATAAGAACCCCCC-TTCAACCCAAACGGTCCAAAAGGAGATAGACAAAGGG 

GTAAACAATGAACCAAAGAGTGCCAATATTCCCTGGTTATGCACCCTCCAAGCGGTGGGAG — 
GTAAACAATGAACCAAAGAGTGCCAATATTCCCTGGTTATGCACCCTCCAAGCGGTGGGAG — 
GTAAACAGTGAACCAAAGAGTGCCAATATTCCCCAATTATGACCCCTCCAAGCAGTGGGAGGA 
GTAAACAATGAACCAAAGAGTGCCAATATTACACGATTATACTCGCTCCAAGCAGTGGGAG — 
GTAAACAACTAACCAAAGAATGCCAATATTCCCCGATTATGCCCCCTCCAAGCGGTGGGAG — 

A-AGAATTCGGCCCAGCCAGAGTGCATGTACCTTTTTCTCTCTCAC-ACTTGAAGCAAATTAAA 
A-AGAATTCGGCCCAGCCAGAGTGCATGTACCTTTTTCTCTCTCAC-ACTTGAAGCAAATTAAA 
AGAGAATTCGGCCCAGCCAGAGTGCATGTGCCTTTTTCTCTCCCAG-ACTTAAAGCAAATAAAA 
-GAGAATTTGGCCCAGCCAGCGTGCATGTACCTTTTTCTCTCTCAG-ATTTAAAGCAAATTAAA 
-GAGAATTCGGCCCAGCCAGAGTGCACGTACCTTTTTCTCTCTCTAGACTTTAAA TTAAA 

ATAGACNTAGGTNAATTNTCAGATAGCCCTGATGGYTATATTGATGTTTTACAAGGATTAGGA 
ATAGACXTAGGTXAATTXTCAGATAGCCCTGATGGXTATATTGATGTTTTACAAGGATTAGGA 
ACAGACTTAGGTAAATTCTCAGATAACCCTGATGGCTATATTGATGTTTTACAAGGGTTAGGA 
ATAGACCTAGGTAAATTCTCAGATAACCCTGATGGCTATATTGATGTTTTACAAGGGTTAGGA 
ATAGACCT AGG T AAAT TCTCAGATAACCCTAATGGCT AT AT TG ATG TT TT ACAAGGT TTAGGA 

TTCCTGAGTTCTTGCACTAACCTCAAAT 
CAATCCTTTGATCTGACATGGAGAGATATAATATTACTGCTAAATCAGACGCTAACCTCAAAT 
CAATCCTTTGATCTGACATGGAGAGATATAATATTACTGCTAAATCAGACGCTAACCTCAAAT 
CAATTCTTTGATCTGACATGGAGAGATATAATGTCACTGCTAAATCAGACACTAACCCCAAAT 
CAATCCTTTGATCTGACATGGAGAGATATAATGTTACTGCTAAATCAGACACTAACCCCAAAT 
CAAT CCT T TG ATC T GAT ATGG AGAG AT AT AATGT T AC TG C T AAAT C AG AC ACTAACCCCAAAT 

GAG AGAAG TGCCGCCAT AACT GCAACCCAAGAGT TTG GC GAT CCCT GG T ATCT C AGT CAGG T C 
GAGAGAAGTGCTGCCATAACTGGAGCCCGAGAGTTTGGCAATCTCTGGTATCTCAGTCAGGTC 
GAGAGAAGTGCTGCCATAACTGGAGCCCGAGAGTTTGGCAATCTCTGGTATCTCAGTCAGGTC 
GAGAGAAGTGCCACCATAACTGCAGCCTGAGAGTTTGGCGATCTCTGGTATCTCAGTCAGGTC 
GAAAAAAGTGCTGCCATAACAGCAGCCTGAGAGTTTGGCGAACTCTGGTATCTCAGTCAGGTC 
GACAGAAGTGTCGCCGTAACTGGAGCCCGAGAGTTTGGCAATCTCTGGTATCTCAGTCAGGTC 

AATG ACAG G ATGAC AACAGAGGAAAGAT AATG ATTCC CC AC AGGCC AGCAGGC AGT T CCC AG T 
AATGAT AGG ATGAC AACGGAGGAAAGAGAACG AT TCC CC AC AGGGC AGCAGGC AGT T CCC AG T 
AATGATAGGATGACAACGGAGGAAAGAGAACGATTCCCCACAGGGCAGCAGGCAGTTCCCAGT 
AATGATAGGATGACAACAGAGGAAAGAGAATGATTCCCCACAGGCCAGCAGGCAGTTCCCAGT 
AATGAT AG G ATGACAAC AGATG AAAGAGAATGAT TCCCCACAGGCC AGC AGGCAGT T CCC AG T 
AATGAT AGGATGACAACAGAGGAAAGAGAACGATTCCCCACAGGCCAGCAGGCAGT T CCCAGT 

GTAGACCCTC AT T AGGACACAGAATCAGAACATGGAGAT TGGT GCCGC AGAC AT TTGCTAAC T 

AACT 

GTAGCTCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCCGCAGACATTTACTAACT 
GTAGCTCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCCGCAGACATTT 
CTAGACCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCTGCAGACATTTGCTAACT 
GT AGACCC TCATTAGGACACAGAATCAGAACT TGGAGATTGGTGCC AC AG AC AT TTGCTAACT 
GT AGACCC TCACTGGG AC AC AGAATCAGAACATGGAG AT TGGTGCCGCAGAC AT TTGCTAAC T 
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TGCGTGCTAGAAGGACTAAGGAAAACTAGGAAGA TATGAATTATTCAATGATGTCCACT 

TGCGTGCTAGAAGGACTAAGGAAAACTAGGAAGA CTATGAATTATTCAATGATGTCCACT 

T GCG T GC T AG AAGG AC T AAG G AAAACT AGG AAG A CTATGAATTATTCAATGATGTCCACT 

TGTGTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGTCTATGAATTACTCAATGATGTCCACA 
TGCGTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGCCCATGAATTATTCAATGATGTCCCCT 
TGCGTGCTAGAAGGACTAAGGAAAACTAGAAAGAAGCCTGTGAGTTATTCAATGATGTCCACT 

ATAACACAGGGGAAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAG 
ATAACACAGGGGAAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAG 
ATAACACAGGGGAAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAG 
ATAACACAGGG-AAGGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAG 
ATAACACAGGG-AAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAAGGATTGAG 
ATAACACAGGG-AAAGGAAGAAAATCCTACCGCCTTTCTGGAGTGACTAACGGAGGCATTGAG 

GAAGCATACC AGGCAAGTGGACATTGGAGGCTCTGGAAAAGGGAAAAGTTGGGAAAAGTA 

GAAGCATACC AGGCAAGTGGACATTGGAGGCTCTGGAAAAGGGAAAAGTTGGGCAAATTG 

GAAGCATACC— AGGCAAGTGGACATTGGAGGCTCTGGAAAAGGGAAAAGTTGGGCAAATTG 
GAAGCGTGCC232AGGCAAGTGGACTTTGGAGGCTCTGGAAAAGGGAAAAGCTGGGCAAATTG 
GAAGCATACC2 3 8 AGGCAAATGGACTTTGGAGGCTCCAGAAAAGGGAAAAGCTGAGCAAATTG 
GAAGCATACC 2 3 3AGGCAAGCGGACTTTGGAGGCACTGGAAAAGGGAAAAGCTAGGCAAATCA 

TATGTCTAATAGGGCTTGCTTCCAGTGTGGTCTACAAGGACACTTTAAAAAAGATTGTCC-AA 
AATGCCTAATAGGGCTTGCTTCCAGTGCAGTCTACAAGGACGCTTTAGAAAAGATTGTCC-AA 

AATGCCTAA 

AATGCCTAATAGGGCTTGCTTCCAGTGCGGTCTACAAGGACACTTTAAAAAAGATTGTCC-AA 
AATGCCTAACAGGGCTTGCTTCTAGTGTGGTCTACAAGGACACTTTAAAAAAGATTGTCC-AA 
AATGCCTAATAGGGTTTGCTTCCAGTGCGGTCTACAAGGACACTTTAAAAAAGATTGTCCAAA 

-TAGAAATAAGCCACCACCTCGTCCATGCCCCTTATGTCAAGGGAATCACTGGAAGGCCCACT 
GTAGAAATAAGCCGCCCC-TCGTCCATGCCCCTTATGTCAAGGGAATCACTGGAAGGCCTACT 
GTAGAAGTAAGCCGCCCCCTCGTCCATGCCCCTTATTTCAAGGGAATCACTGGAAGGCCCACT 
GTAGAAACAAGCTGCCCCCTTGTCCATGCCCCTTATGTCAAGGGAATCACTGGAAGGCCCACT 
-TAGAAATAAGCCGCCCCCTCGTCCATGCACCTCGTGTCAAGGGAATCACTGTAAGGCCCACT 

GCCCCAGGGGATGAAGGTCCTCTGAGTCAGAAGCCACTAACCAGATGA 
GCCCCAGGGGACGAAGGTCCTCTGAGTCAGAAGCCACTAACCTGATGA 
GCCCCAGGGGACAAAGGTCCTCTGAGTCAGAAGCCACTAACCAGATGA 
GCCCCAGGAGATGAAGGTCCTCTGAGTCAGAAGCCACTAACCAGATAA 
GCCCCAGGGGACGTAGGTCCTCTGAGTCAGAAGCCACTAACCAGATGA 
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RT PLSTQTVQKDI DKGVNNEPKS AN I PWLCTLQAVGEE FGPARVHVPFS LSHLKQI KI DG SDSPDG 
KDPPSTQMVQKEIDKRVNSEPKSANIPQLPLQAVGGREFGPARVHVPFSLPDLKQIKTDLGKFSDNPDG 
YIDVLQGLGQSFDLTWRDIILLLNQTLTSNERSAAITGAREFGNLWYLSQVNDRMTTEERERFPTGQQ 



YIDVLQGLGQFFDLTWRDIMSLLNQTLTPNERSATITAJOCEFGDLWYLSQVNDRMTTEEREXFPTGQQ 
AVPSVAPHWDTESEHGDWCRRHLLTCVLEGLRKTRK TMNYSMMSTITQGK 
AVPS LDPHWDTES EHGDWCCRHLLTC VLEGLRKTRKKSMN YSMMST I TQGR 
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GTCTACCTAGCCA-AGGCATATTCTTCTTATGTGGAACATCAACCTATATCTGCCTCCCCACTAACTGGA 
:::::::::: :::::::::: :::::::::::::::: :: : : : :: 

GTCTGCCTACCCTCAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCGTTGTTTGA — A-TGGCTCTT 
CAGGCACC-TGAACCTTAGTCT--TTCTAAGTCCCAAC-ATTAACATTGCCCCAGGAAATCAGACCC-TA 
- : : :::::: ::: :::: ::: :: ::::::: : : : : : ::: :: 
CAGAATCTATGTGC-TTCCTCTCATTCTTAGTGCCCCCTATGACCATCTACACTGAACA — AGATTTATA 
TTGGTACCTGTCAAAGCTAAAGTCCCGTCAGTGCAGAGCCATACAACTAATATCCCTAT-TTATAGGGTT 

: :: ::::::::::::::: : :::: : - ::::::::::::: 

CAGTTA--TGTCATATCTAA-GCCCCGCAACAAAAGAGT-ACCCAT-TC-T-TCCTTTTGTTATAGGAGC 
AGGAATGGCTAC-TGCTAC-AGGAACTGGAATAGCCGGTTTATCTACTTC-ATT-A-TCCTACTACCATA 

:::::::: : : : : : : : : : : : : : : : : : : : : : : : : : ::::::: : : 
AGGAGTG-CTAGGTGC-ACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAA-A 
CAC T C T CAAAGAAT T TC TCAGAC AGT T T G C AAGAAAT AAT GAAAT C TAT TC T T AC T T T ACAAT CC C AA- T 
: :::::::::: : : : : : : : : : : : :::::::: : : : : 

CTATCTCAA-GAACTAAATGGGGACATGGAACGGGTCGCCGAC-TCCCTGGTCACCTTGCAAGATCAACT 
TAGACTCTTTGGCAGCAAT-GACTCTCCAAAACCGCCGAGGCCCACACCTCCTCACTGCTGAGAAAGGAG 

: : ; : : : ::::::: : : : : : : : : : : : : : : : : : : : : : : = : : : : : : : : : : 

TA-ACTCCCTAGCAGCAGTAGTC-CTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGG 
GACTCTGCACCTTCTTAGGGGAAGAGTGTTGTTTTTACACTAACCAGTCAGGGATAGT-AC-GAGAT-GC 

::: :: ::::::::::: :: :::: ::: ::: " ' '• ' ' : 

GAACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATCAATCCGGAATCGTCACTGAGAAAGT 

CACC T GGCAT TT - AC AGG AAAGGGCTTCT GATAT C AG ACAATGCC T T TCAAAC TCT T AT ACCAA CCT 

: : : : : : : : : : ::::::: ::::::::::: : : : : : 

TAAA-GAAATTCGAGATCGAATA-CAACGTAGAGCAGAGGA-GC-TTCGAAACACTGGACCCTGGGGCCT 

CTGGAGT TGGGCAACATGGCTTCTTCCATTTCTAGGTCCCATGGCAGCCATCTTGCTGTTACTCACC 

: : : : : :::::::::::: :::::: : :::::::: 

CCTCAGCCAATGGATGCCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTC 
TTTGGGCCCTGTATTTTTAAGCTTCTTGTCAAATTTGTTTCCTCTAGGATCGAAGCCATCAAGCTACAGA 

• : : : : :::::::: : : : : : : : : : : : : : : : : : : : : : : : : : :::::::: : : : : : • 

TTTGGACCCTGTATCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGC--T G-TAAA-A 

TGGTCTTACAAATGGAACCCCAAATG-AGTTCAACTAACAACTTCTACCAAGGACCCCTGGAACGATCCA 
■ • • • • • ■ ■ • •••••• »»•••••••• • 

CT-ACAAATGGAGCCCAAGATGCAGTCCAAG-A 

CTGGC — ACT-TCC-AC-T-A — GCC-T-AGAGATTCCCCTCTGGAAGACA-CTACAACTGCAGGGCCCC 

CTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCCCTCCTGAGGAAATCT-CAGCTGC 
TTCTTTGCCCCTATCCAGCAGGAAGTAGCTAGAGCGGTCATCGGCCAAATTCCC-AACAGCAGTTGGGGT 

: :: ::::: :: :::::::::: :: :::::::: :::: ::::::: :: :: : 

TACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCCCCAACAGCACTTAGGTT 

GTCCTGTTTAGAGGGGGG 
TTCCTGTTGAGATGGGGG 
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ACCTTGCAAGATCAACTTA- ACTCCCTAGCAGCAGT - AGTCCTTCAAAATCGAAGAGCTTTAGACTTGCT 
ACTTOAC^TCCC^AATAAGACTCTTTGGCAGC^GT 

AACCGCTGAAAGAGGGGGAACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATCAATCCGGA 

CACTGCTGAAAAAGGAGGACTCTGCACCTTCTTAGGGGAAGAGTGTTGTTTTTACACTAACCAGTCAGGG 
ATCGTCACTGAGAAAGTTAAAGAAATTCGAGATCGAATA- - CAACGTAGAGCAGAGGAGCTTCGAAACAC 
■ : : : : : : : : : : : : ::::::: :::::: : 

AT AG- CA- TGAGAT - GCCACCCAGCGTTTACAG - GAAAAGGCTTCTGAAATCAGACGCCTTTC - AAATTC 
TGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATA 
. . : : : : : : : : : :::::::::::::: ::;::: :::::::: 

TTATACCAA CCTCTGGAGT - - - TGGGCAACATGGCTTCTCCCCTTTCTAGGTCCCGTGGCAGCCATC 

ATATTGCTACTCCTCTTTGGACCCTGTATCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAG 

: : : : : : : :::::: : : : : : : : :::::::: : : : : : : : : : : : : : : : :::::::: : 
TTGCTGTTACTCGCCTTTGGGCCCCGTATTTTTAACCTTCTTGTCAAATTTGTTTGGTCTAGAATCGAGG 
C „ T G - TAAA - A CT- ACAAATGGAGCCCAAGATGCAGTC CAAG - ACTAAGATCTACCGCAGAC 

CCATCAAGCTACAGATGGTC*^ACAAATCGAACCCCAAATG - AGTTCAACTAACAACTTCTACCGAGGAC 
CCCTGGACCGGCCTGCTAGCCCACGATCTGATGTTAATGACATCAAAG - GCACCCCTCCTGA- GGAAATC 

. : : : ; : : : : : : : : : : : : : : : : ::::::::: : : : : : 

CCCTGGACTGACCAGCTGGC - - ACT - TCCCCTG GCC-T - AGAGAGTTCCCCTC - TGAAGGACA- C 

T - CAGCTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCC 

: : : : : : : : : : :::::: : : :::::::::: : : :::::: : : : :::::::: : : : 

TACAACTGCAAAGCCCCTTCTTCGCCCCTATCCAGCAGGAAGTAGCTAGAGCAGTCATCGGCCAAATTCC 

C CAACAGCACTT AGGTTTTCCTGTTG AGATGGGGG 
C - AACAGCAGTTGGGGTGTCCTGTTGAT - TGAGGG 
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GTCTGCCTACCCTCAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCGTTGTTTGA- - A- TGGCTCTT 

:::::::::: :::::::::: :::::::::::::::: : : : : : : : 

GTCTACCTAGCCA-AGGCATATTCTTCTTATGTGGAACATCAACCTATATCTGCCTCCCCACTAACTGGA 
CAGAATCTATGTGC - TTCCTCTGATTCTTAGTGCCCCCTATGACCATCTACACTGAACA- - AGATTTATA 
. . . : : : : : : : : : ::::::::: ::::::: : : : : : : : : : : 

CAGGCACC - TGAACCTTAGTCT - - TTCTAAGTCCCAAC - ATTAACATTGCCCCAGGAAATCAGACCC - TA 
CAGTTA- - TGTCATATCTAA- GCCCCGCAACAAAAGAGT - ACCCAT - TC - T - TCCTTTTGTTATAGGAGC 

: ; : : : : : : : : : : : : : : : : : i x . z . ■ - - 

TTGGTACCTGTCAAAGCTAAAGTCCCGTCAGTGCAGAGC CATACAACTAATATCCCTAT - TTATAGGGTT 
AGGAGTG * CTAGGTGC - ACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAA- A 

_„..-., «_ . . . . . . • * . » • • • ■ • ••••••• * • 

• • ■ • .. ... ; ; ; ; ; 5 S 5 I Z I Z I I Z t . . . . . • • • • * • • •■••*•• * 

At^AATGGCTAC- TGCTAC - AGGAACTGGAATAGCCGGTTTATCTACTTC - ATT- A- TCCTACTACCATA 
CTATCTCAA- GAACTAAATGGGGACATGGAACGGGTCGCCGAC - TCCCTGGTCACCTTGCAAGATCAACT 
::: : : • * : : : : : ::::: ::: : 

C^CTCTCAAAGAATTTCTCAGACAGTTTGCAAGAAATAATGAAATCTAT^ " ^ 

. ACTCCCTAGCAGCAGT - AGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGG 

:: : :::::: : : :: :::::: :: ::: : :: : :: :: ::::::::: : 

TAGACTCTTTGGCAGCAATGACTC - TCCAAAACCGCCGAGGCCCACACCTCCTCACTGCTGAGAAAGGAG 
GAACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATC^^TCCGGAATCGTCACTGAGAAAGT 

- - . - - : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 

GACTCTGCAC CTTCTTAGGGGAAGAGTGTTGTTTTTACACTAACCAGTC AGGGATAGT - AC - GAGAT - GC 
TAAA - GAAATTCGAGATCGAATA- CAACGTAGAGCAGAGGA- GC - TTCGAAACACTGGACCCTGGGGCCT 
. . . . : : : : : :::::::::::: :::::: : : : : : 

CACCTGGCATTT - ACAGGAAAGGGCTTCTGATATCAGACAATGCCTTTCAAACTCTTATACCAA CCT 

CCTCAGCCAATGGATGCCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCC 

: : : : : : :::::::::::: :::::: :::::::: : ::::::: : 

CTGGAGT TGGGCAAC^TGGCTTCTTCCATTTCTAGGTCCCATGGCAGCCATCTTGCTGTTACTCACC 

TTTGGACCCTGTATCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGC - - T G - TAAA - A 

..... ........ : s : : : : : : : : : : : : ::::::: : : : : :::::::: : : : : : : 

TTTGGGCCCTGTATTTTTAAGCTTCTTGTCAAATTTGTTTCCTCTAGGATCGAAGCCATCAAGCTACAGA 

CT - ACAAATGGAGCCCAAGATGCAGTCCAAG - ACTAAGATCTACCGCAGACC CCTGGACCGGCCTG 

• : ::::::::: : : : : : : : :::::: : : : :::::: :::::::::: : : : 
TGGTCTTACAAATGGAACCCCAAATG - AGTTCAACTAACAACTTCTACCAAGGACCCCTGGAACGATCCA 
CTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCCCTCCTGAGGAAATCT - CAGCTGCACAACCTC 

...... :: ; : : : : : : :: :::::::: :: : :: :: ::::: :: : 

CTGGC- - ACT - TCC - AC - T - A- - GCC - T - AGAGATTCCCCTCTGGAAGACA- CTACAACTGCAGGGCCCC 
TACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCCCCAACAGCACTTAGG 

TTCTTTGCCCCTATCCAGCAGGAA^ ~ AACAGCAGTTGGGGT 

TTCCTGTTGAGATGGGGG 
::::::::::::::: 
GTCCTGTTTAGAGGGGGG 
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